Ir al contenido

Text Encoding Initiative

De Wikipedia, la enciclopedia libre
Logo oficial

LaText Encoding Initiative(TEI) es un consorcio que desarrolla y mantiene un estándar para la representación de los textos en forma digital. Se trata de un proyecto de investigación enhumanidades digitalesque goza de una amplia difusión y utilización en bibliotecas y colecciones de texto digitales y en la creación de corpora lingüísticos[1]​ Se basa en el lenguajeXML,una versión simplificada delSGML.

Las TEI Guidelines

[editar]

LasTEI Guidelinesen su conjunto lo que hacen es definir una gramática XML. Difiere de otros formatos textuales, comoHTMLyOpenDocument,en que se trata un marcado o etiquetado semántico y no presentacional, es decir, se preocupa por lo que es el texto y establece el significado de cada elemento y atributo. Las pautas describen más de 500 elementos textuales agrupados en veinte módulos, a veces altamente especializados, como el módulo para diccionarios, teatro, corpus lingüísticos, transcripción de fuentes primarias, mientras que otros son generales y básicos para cualquier documento TEI.[2]

Ejemplos

[editar]
<?xml version= "1.0" encoding= "UTF-8"?>
<TEIxmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<!–- obligatorio -->
</teiHeader>
<text>
<front>
<!–- opcional -->
</front>
<body>
<!–- obligatorio -->
</body>
<back>
<!–- opcional -->
</back>
</text>
</TEI>

Ejemplo práctico

[editar]
<?xml version= "1.0" encoding= "UTF-8"?>
<teiHeader>
<fileDesc>
<titleStmt>
<title>NACIMIENTODECRISTO</title>
<author>FedericoGarcíaLorca</author>
</titleStmt>
<publicationStmt>
<p>EjemploparaWikipedia</p>
</publicationStmt>
<sourceDesc>
<p>Transcritodesdeunaviejaedición</p>
</sourceDesc>
</fileDesc>
</teiHeader>
<text>
<body>
<head>NACIMIENTODECRISTO</head>
<lg>
<l>Unpastorpidetetaporlanievequeondula</l>
<l>blancosperrostendidosentrelinternassordas</l>
<l>ElCristitodebarrosehapartidolosdedos</l>
<l>Enlosfiloseternosdelamaderarota.</l>
</lg>
<lg>
<l>¡Yavienenlashormigasylospiesateridos!</l>
<l>Doshilillosdesangrequiebranelcielo.</l>
<l>Losvientresdeldemonioresuenanporlosvalles</l>
<l>golpesyresonanciasdecarnedemoluscos.</l>
</lg>
<lg>
<l>Lobosysaposcantanenlashoguerasverdes</l>
<l>coronadasporvivoshormiguerosdelalba</l>
<l>Lamulatienenunsueñodegrandesabanicos</l>
<l>yuntorosueñauntorodeagujerosyagua.</l>
</lg>
<lg>
<l>Elniñolloraconuntresenlafrente.</l>
<l>SanJoséveenelhenotresespinasdebronce</l>
<l>lospañalesexhalanunrumordedesierto</l>
<l>concítarassincuerdasydegolladasvoces</l>
</lg>
<lg>
<l>LanievedeManhattanempujalosanuncios</l>
<l>yllevagraciapuraporlasfalsasojivas.</l>
<l>Sacerdotesidiotasyquerubesdepluma</l>
<l>vandetrásdeLuteroporlasaltasesquinas.</l>
</lg>
</body>
</text>
</TEI>

Historia

[editar]

Antecedentes

[editar]

Antes de la creación del TEI, los humanistas no tenían estándares comunes para codificar textos electrónicos. A lo largo de los años los académicos desarrollaron métodos variados con el objetivo de representar caracteres especiales y codificar divisiones lógicas de un texto, así como representar información analítica e interpretativa y reducir el aparato de texto crítico a una secuencia lineal única.[3]

Debido a la falta de un formato estándar y unificado, entre 1960 y 1980 se empezaron a desarrollar esquemas de codificación desde cero y a partir de adaptaciones de los ya existentes. Los esquemas ya existentes reflejaban principalmente los intereses de sus desarrolladores y estaban adaptados a los programas que utilizaban. En su mayoría eran incompatibles con las investigaciones de otros humanistas, debido a que tenían que modificarlos sustancialmente para poder usarlos, siempre y cuando se pudiesen reutilizar.[3]

Cuando la comunidad dehumanidades informáticas(eninglés:Computing humanities) reconoció esta problemática, se reunieron e intentaron en varias ocasiones (San Diego, 1977; Pisa, 1980) desarrollar estándares de codificación para los textos legibles por ordenadores. Sin embargo, no se llegó a ningún consenso y se interrumpieron.[3]

Origen

[editar]

LaText Encoding Initiativenació en un congreso organizado por laAssociation for Computers and the Humanities(ACH) en elVassar Collegeen 1987, y fue financiado por laU.S. National Endowment for the Humanities(en español:Fundación Nacional de los Estados Unidos para las Humanidades). Al congreso asistieron alrededor de 30 representantes de diferentes archivos, centros de humanidades informáticas, proyectos de investigación y organizaciones profesionales para reconsiderar la viabilidad de la estandarización y realizar recomendaciones en relación con su ámbito de aplicación, estructura, contenido y redacción, conocidos actualmente como los «principios de Poughkeepsie» (eninglés:Poughkeepsie Principles).[n 1][3][4]

El congreso fue un éxito, ya que, por una parte, se supo más sobre los problemas de la codificación y se aclararon los principios que debían seguirse para resolver esta problemática. Por otra parte, el grupo de Vassar logró reunir y componerse de una mayor representación de organizaciones clave y centros de investigación activos que en anteriores reuniones. Además, el reciente desarrollo delStandard Generalized Markup Languageaportó una herramienta para desarrollar un esquema de codificación sencillo, flexible y extensible que cumpliese con las diferentes necesidades de la investigación textual. El consenso que se alcanzó en el congreso fue que esta necesidad estaba creciendo y había que resolverla urgentemente.[5]

Desarrollo de las pautas de codificación

[editar]

Tras el congreso, laAssociation for Computational Linguistics(ACL) y laAssociation for Literary and Linguistic Computing(ALLC) acordaron unirse a la ACH como patrocinadores para elaborar las pautas del estándar.[6]​ Estas tres organizaciones se comprometieron a guiar el esfuerzo y la búsqueda de financiación para apoyar la TEI como un proyecto a nivel internacional y multilingüe. Sin embargo, pronto se reconoció que este proyecto no solo era del interés de las humanidades, sino que también se podía aplicar a diversas aplicaciones de la industria del lenguaje.[5]

En 1994, la TEI publicó su primera versión completa de lasGuidelines for the Encoding and Interchange of Machine-Readable Texts(en español:Pautas para la codificación e intercambio de textos legibles por ordenadores), coeditada porMichael Sperberg-McQueenyLou Bernard.[7][8][5][n 2]

Durante sus primeras versiones, hasta la P3, la TEI se desarrolló sobre la base del SGML. En la versión P4, publicada en 2002, apareció la primera especificación enXML.[10]​ En 2007 se publicó la versión P5[11]​ La última versión de la P5 es la 3.3.0 y fue publicada el 31 de enero de 2018 bajo el nombre en claveJohnny Rotten.[12]

Notas

[editar]
  1. Poughkeepsie(condado de Dutchess,Nueva York) es la ciudad en la que se encuentra elVassar College,donde se celebró el primer congreso.
  2. Estas pautas consiguieron establecer el estándarSGMLcomo elentorno de trabajoadecuado para su desarrollo; especificar las restricciones y recomendaciones al usar SGML; analizar e identificar categorías y características de la codificación de datos textuales; especificar un conjunto de definiciones generales efectivas, flexibles y extensibles para la estructura del texto; crear una especificación metodológica para la documentación en los archivos de los textos electrónicos, compatible con las convenciones de bibliotecas, con la función de servir como historial de los textos para poder validar su procedencia y las modificaciones que se hayan realizado; especificar convenciones para tipos de textos especiales o características textuales.[9]

Referencias

[editar]
  1. James Cummings. Ray Siemens and Susan Schriebman, ed.«The Text Encoding Initiative and the Study of Literature».A Companion to Digital Literary Studies.
  2. «Appendix C Elements».tei-c.org.2018.Consultado el 8 de febrero de 2018.
  3. abcdIde y Sperberg-McQueen, 1995,p. 5.
  4. «The Preparation of Text Encoding Guidelines».tei-c.org.13 de noviembre de 1987.Consultado el 2 de enero de 2018.
  5. abcIde y Sperberg-McQueen, 1995,p. 6.
  6. «iv. About These Guidelines - The TEI Guidelines».www.tei-c.org(en inglés).Consultado el 31 de diciembre de 2017.
  7. «Design Principles for Text Encoding Guidelines».tei-c.org(en inglés).14 de diciembre de 1988. Archivado desdeel originalel 4 de enero de 2018.Consultado el 2 de enero de 2018.
  8. Sperberg-McQueen y Burnard, 1994.
  9. Ide y Sperberg-McQueen, 1995.
  10. «TEI: P4 Guidelines».tei-c.org.Consultado el 8 de febrero de 2018.
  11. «TEI: P5 Guidelines».tei-c.org.Consultado el 8 de febrero de 2018.
  12. «TEI P5 version 3.3.0 release notes».tei-c.org.Consultado el 8 de febrero de 2018.

Bibliografía

[editar]

Enlaces externos

[editar]