Cómo buscar imágenes de periódicos históricos usando inteligencia artificial
por Personal de Enseñanza-Pensamiento
Los profesores y estudiantes (o cualquier otra persona del público, para el caso) pueden ahora explorar más de un millón y medio de imágenes históricas de periódicos en línea usando inteligencia artificial.
La última experiencia de aprendizaje de máquinas de LC Labs, Newspaper Navigator permite a los usuarios buscar contenido visual en periódicos americanos que datan de 1789-1963. El usuario comienza introduciendo una palabra clave que le devuelve una selección de fotos. Luego el usuario puede elegir las fotos en las que desea realizar la búsqueda, lo que permite descubrir imágenes relacionadas que antes eran indetectables para los motores de búsqueda.
Durante decenios, asociados de todo el territorio de los Estados Unidos han colaborado para digitalizar periódicos a través del sitio web de la Biblioteca Chronicling America, una base de datos de periódicos históricos de los Estados Unidos. El texto de los periódicos se puede buscar gracias a la tecnología de reconocimiento de caracteres, pero los usuarios que buscaban imágenes específicas tenían que hojear cada uno de los números. Gracias al ingenio creativo de Innovator in Residence Benjamin Lee y a los avances en el aprendizaje por máquina, Newspaper Navigator hace ahora posible la búsqueda de imágenes en los periódicos, permitiendo a los usuarios buscar por similitudes visuales.
Ver también Preguntas para ayudar a los estudiantes a pensar críticamente sobre las noticias
Para crear el Newspaper Navigator, Lee entrenó algoritmos de computadora para clasificar 16 millones de páginas de periódicos del Chronicling America en busca de fotografías, ilustraciones, mapas, caricaturas, cómics, titulares y anuncios. La idea del proyecto innovador de Lee comenzó con un experimento de crowdsourcing en la Biblioteca para el 2017 Innovator in Residence Tong Wang llamado Beyond Words, que invitaba al público a ayudar a identificar caricaturas, ilustraciones, fotografías y anuncios en los periódicos de la época de la Primera Guerra Mundial. Los usuarios podían dibujar recuadros en torno al contenido visual de una página, transcribir los pies de foto o revisar las transcripciones de otros usuarios.
«Cuando me encontré por primera vez con Más allá de las palabras, me cautivaron las miles de fotografías, ilustraciones, caricaturas y mapas identificados por los voluntarios. Empecé a preguntarme si este contenido visual identificado era la clave para abrir el cofre del tesoro de contenido visual a lo largo de los 16 millones de páginas del Chronicling America utilizando el aprendizaje automático», dijo Lee. Solicitó el Programa de Innovadores en Residencia de la Biblioteca para averiguarlo.
Mientras que las técnicas de búsqueda de imágenes no son nuevas en las empresas tecnológicas, Newspaper Navigator casa el patrimonio cultural con la informática. Los usuarios se encuentran con una demostración en tiempo real de cómo los algoritmos están entrenados para escanear millones de piezas de datos en segundos. Todo el código utilizado en el proyecto es de código abierto y se coloca en el dominio público para su reutilización sin restricciones. Se puede acceder al código del conjunto de datos aquí.
«Mientras escribo la historia de los editores de los primeros Estados Unidos, Newspaper Navigator será una herramienta inestimable para trazar la cultura visual de la prensa», dijo Jim Casey, profesor adjunto de Estudios Afroamericanos de la Universidad de Penn State, que formó parte de un grupo de prueba de Newspaper Navigator. «Nos proporciona una gran cantidad de pistas sobre el trabajo de los editores (entre bastidores) para forjar el aspecto de los primeros borradores de la historia. El trabajo de Ben Lee en los laboratorios LC es un ejemplo de primera clase de cómo la informática puede ayudarnos a entender nuestra herencia cultural de formas nuevas e inesperadas. Espero que la plataforma del Navegador de Periódicos abra muchas nuevas áreas de investigación porque nos permite hacer nuevos tipos de preguntas».
La larga colaboración de la Biblioteca con la Fundación Nacional para las Humanidades creó el Programa Nacional de Periódicos Digitales, que produce el Chronicling America.
«El Newspaper Navigator ofrece una dimensión completamente nueva de acceso a la América Crónica», dijo Molly O’Hagan Hardy del National Endowment for the Humanities. «Las imágenes y las palabras de la página del periódico impreso interactúan para construir un significado para los lectores pasados y presentes, y nos perdemos la mitad de ese significado haciendo cuando nuestras búsquedas se basan exclusivamente en el texto escrito».
Newspaper Navigator permitirá un mayor acceso a una gran colección y puede permitir nuevos descubrimientos de los periódicos históricos, dijo Hardy.
«Lo que me inspira de Newspaper Navigator es que sólo es posible a través de décadas de visión colectiva e innovación», dijo Kate Zwaard, directora de estrategia digital de la Biblioteca del Congreso. «El trabajo creativo de Ben se basa en otros proyectos de software de código abierto, datos abiertos del Chronicling America escaneados por bibliotecas y archivos de toda América, y las contribuciones compartidas de los usuarios de Beyond Words. Nos permite ver el efecto exponencial de compartir información y tecnología».
A través de la experimentación, la investigación y la colaboración, LC Labs trabaja para hacer realidad la visión de la Biblioteca de que «todos los estadounidenses están conectados a la Biblioteca del Congreso», habilitando la Estrategia Digital de la Biblioteca. LC Labs es la sede del Programa de Innovadores en Residencia de la Biblioteca del Congreso; ha fomentado experimentos en el aprendizaje automático y el uso de colecciones como datos; e incubó el popular programa de transcripción de la Biblioteca, By the People.