GenBank

Abase de datos de secuenciasGenBanké unha colección anotada de acceso aberto de todas as secuencias denucleótidosdispoñibles publicamente e as súas traducións aproteínas.É elaborada e mantida poloNational Center for Biotechnology Information(NCBI; que forma parte dosNational Institutes of HealthdosEstados Unidos) como parte daInternational Nucleotide Sequence Database Collaboration(INSDC, Colaboración de bases de datos de secuencias de nucleótidos internacional).

GenBank e os seus colaboradores reciben secuencias producidas en laboratorios de todo o mundo de máis de 100.000 organismos vivos distintos, cuxo número crece constantemente. Esta base de datos fundárona en 1982Walter Goade oLos Alamos National Laboratory.GenBank converteuse nunha importante base de datos para a investigación no eido da bioloxía e está tendo un crecemento nos últimos anos a unha taxa exponencial, duplicándose aproximadamente cada 18 meses.^[1]^[2]

A entrega 242.0, realizada en febreiro de 2021, contiña uns 12 billóns de bases nucleotídicas en máis de 2 mil millóns de secuencias.^[3]GenBank vaise construíndo cos envíos de datos dos máis diversos laboratorios e polos envíos dos centros desecuenciación de ADNa grande escala.

Envío de datos

Soamente se poden enviar a GenBank secuencias orixinais. O envío directo a GenBank faise usandoBankIt,que é unha forma baseada en páxina web, ou o programa de envío autónomoSequin.Unha vez recibido o envío da secuencia, o equipo de GenBank examina a orixinalidade dos datos e asignalle unnúmero de accesoá secuencia e realiza comprobacións para asegurarse da súa calidade. Os envíos de datos son despois pasados á base de datos pública, onde as entradas pódense obter porEntrezou pódense descargar porFTP.Os envíos voluminosos de datos deEST(marcadores de secuenca expresada ouExpressed Sequence Tags),STS(Sequence-tagged sites),GSS(Genome Survey Sequence) eHTGS(High-Throughput Genome Sequence) son enviados normalmente por centros de secuenciación a grande escala. Os grupo de envíos directos de GenBank tamén procesa secuenciasxenómicasmicrobianas completas.

Historia

Walter GoaddoGrupo de bioloxía teórica e biofísica Arquivado08 de marzo de 2018 enWayback Machine.doLaboratorio Nacional de Los Álamos(LANL), Estados Unidos, e outros fundaron a Base de Datos de Secuencias de Los Álamos en 1979, o cal culminou en 1982 coa creación do GenBank público.^[4]O financiamento proporcionárono osNational Institutes of Health,a National Science Foundation, os departamentos de enerxía e de defensa. O LANL colaborou en GenBank coa compañíaBolt, Beranek, and Newman,e a finais de 1983 estaban almacenadas nel máis de 2.000 secuencias.

Na metade da década de 1980, a compañía The Intelligenetics bioinformatics daUniversidade Stanfordxestionou o proxecto de GenBank en colaboración co LANL.^[5]Como era un dos primeiros proxectos comunitarios debioinformáticaen Internet, o proxecto GenBank fundou os grupos de noticiasBIOSCI/Bionet para promover as comunicacións de acceso aberto entre biocientíficos. Durante os anos 1989 a 1992, o proxecto GenBank pasou ao NCBI (National Center for Biotechnology Information) acabado de crear.^[6]

Crecemento

As notas de entrega de GenBank para a entrega 162.0 (de outubro de 2007) dicían que "desde 1982 ata agora, o número de bases en GenBank duplicouse aproximadamente cada 18 meses".^[3]^[7]En 2019 a entrega de GenBank 232.0 tiña 213.383.758loci,329.835.282.370 bases, de 213.383.758 secuencias.^[3]

A base de datos GenBank inclúe conxuntos de datos adicionais que se constrúen mecanicamente a partir da colección principal de datos de secuencias, que, por tanto, están excluídos desta cifra.

Organismos principais en GenBank
(entrega 191)^[8]
Organismo	pares de bases
Homo sapiens	701016310774187000016.310.774.187
Mus musculus	70099974977889000009.974.977.889
Rattus norvegicus	70096521253272000006.521.253.272
Bos taurus	70095386258455000005.386.258.455
Zea mays	70095062731057000005.062.731.057
Sus scrofa	70094887861860000004.887.861.860
Danio rerio	70093120857462000003.120.857.462
Strongylocentrotus purpuratus	70091435236534000001.435.236.534
Macaca mulatta	70091256203101000001.256.203.101
Oryza sativa Japonica Group	70091255686573000001.255.686.573
Nicotiana tabacum	70091197357811000001.197.357.811
Xenopus (Silurana) tropicalis	70091249938611000001.249.938.611
Drosophila melanogaster	70091119965220000001.119.965.220
Pan troglodytes	70091008323292000001.008.323.292
Arabidopsis thaliana	70091144226616000001.144.226.616
Canis lupus familiaris	7008951238343000000951.238.343
Vitis vinifera	7008999010073000000999.010.073
Gallus gallus	7008899631338000000899.631.338
Glycine max	7008906638854000000906.638.854
Triticum aestivum	7008898689329000000898.689.329

Identificacións incompletas

As bases de datos públicas nas que se poden facer buscas usando a ferramenta NCBI BLAST (National Center for Biotechnology Information Basic Local Alignment Search Tool), non teñen secuencias revisadas por pares decepastipo nin secuencias de cepas non tipo. Por outra parte, aínda que as bases de datos comerciais potencialmente conteñen datos de secuencias filtradas de alta calidade, hai un número limitado de secuencias de referencia.

Un artigo publicado na revistaJournal of Clinical Microbiology^[9]avaliou os resultados da secuenciación do xene doARNr de 16Sanalizados con GenBank en conxunción con outras bases de datos dispoñibles baseadas en páxina web de acceso libre de calidade contolada, como as bases de datosEzTaxon-e^[10]e a BIBI.^[11]Os resultados mostraron que as análises realizadas usando GenBank combinada conEzTaxon-e (kappa = 0.79) eran máis discriminativas que usando GenBank (kappa = 0.66) ou outra base de datos en solitario.

Notas

↑Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Wheeler, D. L.; et al. (2008)."GenBank".Nucleic Acids Research36(Database): D25–D30.PMC 2238942.PMID 18073190.doi:10.1093/nar/gkm929.
↑Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W.; et al. (2009)."GenBank".Nucleic Acids Research37(Database): D26–D31.PMC 2686462.PMID 18940867.doi:10.1093/nar/gkn723.
↑^3,0^3,1^3,2"GenBank release notes".NCBI.
↑Hanson, Todd (2000-11-21)."Walter Goad, GenBank founder, dies".Newsbulletin: obituary.Los Alamos National Laboratory. Arquivado dendeo orixinalo 07 de novembro de 2008.Consultado o 26 de setembro de 2021.
↑LANL GenBank History
↑Benton D (1990)."Recent changes in the GenBank On-line Service".Nucleic Acids Research18(6): 1517–1520.PMC 330520.PMID 2326192.doi:10.1093/nar/18.6.1517.
↑Benson, D. A.; Cavanaugh, M.; Clark, K.; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W. (2012)."GenBank".Nucleic Acids Research41(Database issue): D36–D42.PMC 3531190.PMID 23193287.doi:10.1093/nar/gks1195.
↑Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (xaneiro de 2011)."GenBank".Nucleic Acids Res.39(Database issue): D32–37.PMC 3013681.PMID 21071399.doi:10.1093/nar/gkq1079.
↑Kyung Sun Parka, Chang-Seok Kia, Cheol-In Kangb, Yae-Jean Kimc, Doo Ryeon Chungb, Kyong Ran Peckb, Jae-Hoon Songb and Nam Yong Lee (maio de 2012)."Evaluation of the GenBank, EzTaxon, and BIBI Services for Molecular Identification of Clinical Blood Culture Isolates That Were Unidentifiable or Misidentified by Conventional Methods".J. Clin. Microbiol.50(5): 1792–1795.PMC 3347139.PMID 22403421.doi:10.1128/JCM.00081-12.
↑EzTaxon-e Databaseeztaxon-e.ezbiocloud.net(consultado o 25 de marzo de 2021)
↑leBIBI V5pbil.univ-lyon1.fr(consultado o 25 de marzo de 2021)

Este artigo incorpora material en dominio público procedente do documento do National Center for Biotechnology Information: "NCBI Handbook".

Véxase tamén

Outros artigos

Ensembl
Human Protein Reference Database(HPRD)
Análise de secuencias
UniProt
RefSeq— a base de datos de secuencias de referencia
Geneious— inclúe unha ferramenta para enviar datos a GenBank

Ligazóns externas

GenBank
Example sequence record, for hemoglobin beta
BankIt
Sequin— unha ferramenta autónoma de software desenvolvida polo NCBI para enviar e actualizar entradas da base de datos de secuencias GenBank.
EMBOSS— software libre de fonte aberta de bioloxía molecular
GenBank, RefSeq, TPA and UniProt: What's in a Name?

[pmid18073190-1] Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Wheeler, D. L.; et al. (2008)."GenBank".Nucleic Acids Research36(Database): D25–D30.PMC 2238942.PMID 18073190.doi:10.1093/nar/gkm929.

[pmid18940867-2] Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W.; et al. (2009)."GenBank".Nucleic Acids Research37(Database): D26–D31.PMC 2686462.PMID 18940867.doi:10.1093/nar/gkn723.

[ReleaseNotes-3] 3,0^3,1^3,2"GenBank release notes".NCBI.

[lanl2000-4] Hanson, Todd (2000-11-21)."Walter Goad, GenBank founder, dies".Newsbulletin: obituary.Los Alamos National Laboratory. Arquivado dendeo orixinalo 07 de novembro de 2008.Consultado o 26 de setembro de 2021.

[lanl1994-5] LANL GenBank History

[pmid2326192-6] Benton D (1990)."Recent changes in the GenBank On-line Service".Nucleic Acids Research18(6): 1517–1520.PMC 330520.PMID 2326192.doi:10.1093/nar/18.6.1517.

[7] Benson, D. A.; Cavanaugh, M.; Clark, K.; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W. (2012)."GenBank".Nucleic Acids Research41(Database issue): D36–D42.PMC 3531190.PMID 23193287.doi:10.1093/nar/gks1195.

[pmid21071399-8] Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (xaneiro de 2011)."GenBank".Nucleic Acids Res.39(Database issue): D32–37.PMC 3013681.PMID 21071399.doi:10.1093/nar/gkq1079.

[9] Kyung Sun Parka, Chang-Seok Kia, Cheol-In Kangb, Yae-Jean Kimc, Doo Ryeon Chungb, Kyong Ran Peckb, Jae-Hoon Songb and Nam Yong Lee (maio de 2012)."Evaluation of the GenBank, EzTaxon, and BIBI Services for Molecular Identification of Clinical Blood Culture Isolates That Were Unidentifiable or Misidentified by Conventional Methods".J. Clin. Microbiol.50(5): 1792–1795.PMC 3347139.PMID 22403421.doi:10.1128/JCM.00081-12.

[10] EzTaxon-e Databaseeztaxon-e.ezbiocloud.net(consultado o 25 de marzo de 2021)

[11] BIBI V5pbil.univ-lyon1.fr(consultado o 25 de marzo de 2021)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]