Proporcionan acceso abierto a la base de datos de agregación del genoma (gnomAD) en Google Cloud

Oct 13 de 2020 0

Hoy, nos complace anunciar una colaboración entre Google Cloud Healthcare & Life Sciences y el Broad Institute of MIT y Harvard para brindar acceso gratuito a uno de los conjuntos de datos genómicos públicos más completos del mundo, Genome Aggregation Database (gnomAD) . 

gnomAD reúne datos de numerosos proyectos de secuenciación a gran escala, incluidos estudios genéticos específicos de enfermedades y poblaciones. Con más de 241 millones de variantes genéticas humanas cortas únicas y 335,000 variantes estructurales observadas en más de 141,000 individuos adultos sanos en una amplia gama de grupos de ascendencia genética, este conjunto de datos es un recurso casi ubicuo para la investigación genética humana y la interpretación de variantes clínicas. Se utiliza en procesos de diagnóstico genético clínico en todo el mundo.

Los datos de gnomAD se alojan en varios formatos para abordar una amplia gama de casos de uso biomédicos y sanitarios. Estos datos están disponibles en tablas con formato Hail y archivos de formato de llamada variante (VCF) en Google Cloud Storage. Estos datos también están disponibles en BigQuery como parte del Programa de conjuntos de datos públicos . Los usuarios reciben 1 TB de procesamiento gratuito de BigQuery cada mes, que se puede usar para ejecutar consultas en este conjunto de datos públicos. Los usuarios de Google Cloud pueden acceder de forma segura a estos datos en cualquiera de estos formatos en todas las regiones de Google Cloud a través de sus canales de bioinformática en Google Cloud sin pagar cargos de salida.

Para que gnomAD esté disponible en BigQuery, el equipo de Google Cloud usó Variant Transforms para ingerir archivos VCF. Una vez ingeridas, las variantes se fragmentaron para dividir las tablas de salida por cromosoma. Además, utilizamos la agrupación y particionamiento de rango entero para reducir el costo de las consultas . Este trabajo permite a los investigadores explorar gnomAD de manera rápida y eficiente, sin necesidad de solicitar o pagar por recursos informáticos dedicados en la nube. Al consultar una región genómica específica más pequeña, se espera que los costos de consulta se reduzcan significativamente en comparación con la consulta de todo el conjunto de datos. Esta aplicación de Variant Transforms ha sido aprovechada por socios y clientes como Mayo Clinic y Color Genomics.para acelerar su investigación en genómica. En este instructivo, encontrará más información sobre el uso de gnomAD en BigQuery .

Los datos en el depósito de Google Cloud Storage también incluyen conjuntos de verdad estándar que se utilizan para evaluar y validar llamadas de variantes, datos de los artículos de Broad Institute en Nature , listas de intervalos y otros recursos de anotación.

Para acceder a gnomAD en Google Cloud, explore la documentación aquí . Los archivos también se pueden explorar y descargar con Cloud Console o la herramienta de línea de comandos gsutil . Después de instalar gsutil, comience a navegar con 

$ gsutil ls gs://gcp-public-data--gnomad.

Explore ofertas adicionales de conjuntos de datos de salud y ciencias de la vida en Google Cloud aquí .

Comparte esta noticia



Últimas Noticias

0 Comentarios

Para comentar debes haber iniciado sesión

Iniciar sesión