Archivo de la etiqueta: Google Books

Descubriendo el genoma cultural gracias a Google Book

De la misma forma que un fósil nos explica cosas sobre la evolución de la vida en la tierra, las palabras de los libros nos cuentan una parte de la historia de la humanidad. Cada una de ellas contiene una historia, no únicamente a través de las frases que forman, sino también por la frecuencia de su uso. Descubrir estas pequeñas historias no es fácil, porque requiere digitalizar los libros para que las palabras puedan ser extraídas, analizadas y comparadas.

Esto es lo que nos explica Ed Young en The cultural genome: Google Books reveals traces of fame, censorship and changing languages, un artículo que se publicó hace seis meses en Discover Magazine.  En el artículo, Young nos explica el trabajo de un equipo de la universidad de Harvard, dirigido por Jean-Baptiste Michel y Erez Lieberman Aiden, que está analizando la masa de textos digitalizada por Google Books, hasta el momento unos 15 millones de libros (el 12% de todo lo publicado en el mundo). El objetivo es constituir un corpus lingüístico que permita a los investigadores estudiar la cultura humana de forma rigurosa. Un proyecto que dada su similitud con la decodificación del genoma humano lo han denominado Culturómica.

Por el momento, el equipo ha trabajado con 5 millones de libros publicados, desde el siglo XVII, en Inglés, Francés, Español, Alemán, Chino, Ruso y Hebreo que totalizan más de 500 mil millones de palabras. Entre los resultados provisionales  de la investigación, centrado en la lengua inglesa, podemos destacar aspectos interesantes, como el enriquecimiento espectacular de la lengua inglesa (en los últimos 50 años, el vocabulario se ha incrementado en un 70%), la evolución de la gramática o  los usos de las palabras en determinados momentos históricos. Asimismo, el tratamiento del corpus permite conocer temas como el periodo de adopción de un nuevo término,  la evolución de la dieta de las personas y las enfermedades, la evolución tecnológica, o la aplicación de la censura, entre otros muchos.

Sin embargo, los investigadores reconocen que aunque se procesasen el 100% de los libros publicados, estos no son representativos del conjunto de la cultura humana,  porque las personas que escriben y publican pertenecen a una determinada categoría que ha ido evolucionando con el tiempo y con el progreso de la alfabetización. Se debería completar con la digitalización de otros textos como los periódicos, la correspondencia escrita, y otras miríadas de la expresión de la cultura humana.

La lectura del artículo de Young, me recuerda mi experiencia profesional colateral, en la segunda mitad de los años 80, con el proyecto de elaboración del corpus de la tradición literaria vasca, dirigido por Ibon Sarasola. Fue un proyecto en la que unos cuantos estudiantes de filología, en la sede del servicio de informática del Gobierno Vasco (EJIE), se dedicaron a copiar cientos de libros enteros en euskera, tecleando palabra tras palabra para su posterior tratamiento informático utilizando el procesador de texto más potente de la época operativo en los mainframes del Wang/VS. Un proyecto avanzado en su tiempo si lo comparamos con el que inició Google 20 años después con una tecnología de digitalización de 1.000 páginas por hora.

Para ampliar información sobre la Culturómica, es recomendable el artículo de Erez Lieberman “Culturomics: Word play” publicado el 17 de Junio de 2011 en la Revista Nature.