Saltar al contenido

Nueva herramienta de inteligencia artificial busca en millones de páginas de periódicos históricos

1 de octubre de 2020

Una nueva herramienta de búsqueda utiliza el aprendizaje por máquina para buscar en millones de periódicos de EE.UU. páginas para las fotos históricas.

La Biblioteca del Congreso de los Estados Unidos recientemente lanzó la herramienta, llamada Navegador de Periódicos. El sistema de búsqueda en línea está disponible de forma gratuita para el público.

La Biblioteca del Congreso es la biblioteca más grande del mundo. Ofrece materiales del registro creativo de los Estados Unidos. La biblioteca sirve como el principal servicio de investigación del Congreso de los Estados Unidos.

El Newspaper Navigator permite actualmente a los usuarios buscar más de 16 millones de páginas de periódicos de todo el país, desde 1900 hasta 1963.

Las páginas del periódico fueron digitalizado para otro proyecto de la Biblioteca del Congreso, llamado «Chronicling America». Esta herramienta también permite realizar búsquedas en los 16 millones de páginas de periódicos de la biblioteca. Las páginas contienen más de un millón y medio de imágenes.

Una captura de pantalla de la nueva herramienta del Navegador de Periódicos muestra una búsqueda de imágenes para

Una captura de pantalla de la nueva herramienta del Navegador de Periódicos muestra una búsqueda de imágenes de «jugadores de béisbol».

El sistema Chronicling America permite a los usuarios encontrar y mirar páginas completas de periódicos como imágenes digitalizadas. Los usuarios también pueden buscar la colección por palabra clave, usando reconocimiento óptico de caracteres — OCR. El OCR es una herramienta que utiliza cámaras digitales para identificar las imágenes impresas personajes en una página para búsquedas o para producir texto.

Esto significaba que la gente que usaba el sitio Chronicling America tenía que buscar por sí misma en las páginas de los periódicos al tratar de encontrar imágenes específicas. La nueva herramienta Newspaper Navigator ofrece la posibilidad de realizar búsquedas basadas en imágenes contenido en la colección.

Aquí es donde entran los métodos de aprendizaje a máquina. El sistema de búsqueda fue entrenado para reconocer diferentes tipos de imágenes. Por ejemplo, fue diseñado para diferenciar entre fotos, mapas, comics…anuncios, etc. También puede identificar imágenes similares y devolverlas en los resultados de la búsqueda.

Benjamin Lee creó el sistema. Es miembro del Programa de Innovadores en Residencia de la Biblioteca del Congreso. El programa fue establecido para patrocinador personas de diferentes campos para crear nuevas formas de presentar al público las enormes colecciones históricas de la biblioteca.

Esta foto de archivo muestra al innovador de la Biblioteca del Congreso en la residencia Benjamin Lee, el 27 de febrero de 2020. (Foto de Shawn Miller/Biblioteca del Congreso)

Esta foto de archivo muestra al innovador de la Biblioteca del Congreso en la residencia Benjamin Lee, el 27 de febrero de 2020. (Foto de Shawn Miller/Biblioteca del Congreso)

Lee entrenó un modelo de aprendizaje automático para identificar el visual y luego corrió el modelo en los 16 millones de páginas del Chronicling America.

Su modelo de entrenamiento se basó en otro experimento de la Biblioteca del Congreso llamado Más allá de las palabras. Ese proyecto invitó al público a ayudar a identificar caricaturas, dibujos, fotografías y anuncios en los periódicos durante la Primera Guerra Mundial.

Lee dijo que después de conocer el experimento de Más Allá de las Palabras, vio una gran posibilidad de usar esa información para potenciar su herramienta de aprendizaje de máquinas. «Comencé a preguntarme si este contenido visual identificado era la clave para abrir el cofre del tesoro de contenido visual, a lo largo de los 16 millones de páginas del Chronicling America.»

El Newspaper Navigator funciona como otros motores de búsqueda. Los usuarios introducen un término de búsqueda en la casilla «palabra clave». También pueden elegir limitar los resultados de la búsqueda por ubicaciónasí como por fecha.

Pero una de las herramientas más poderosas del sistema es la capacidad de buscar imágenes por similitud visual. Los usuarios de la herramienta pueden guardar imágenes en una «colección» personal. Luego pueden usar esas imágenes como base para encontrar otras imágenes visualmente similares en toda la colección de la biblioteca.

Una captura de pantalla de la nueva herramienta del Navegador de Periódicos muestra una búsqueda de imágenes para

Una captura de pantalla de la nueva herramienta del Navegador de Periódicos muestra una búsqueda de imágenes para «titánica».

El sistema permite incluso a los usuarios «reciclar» la herramienta de aprendizaje de la máquina para las búsquedas individuales. Esto se hace examinando las imágenes que la búsqueda devuelve. Al seleccionar si las imágenes encontradas eran similares o no al resultado deseado, el usuario «reentrena» el sistema para mejorar su rendimiento de búsqueda.

Una demostración del Newspaper Navigator está disponible para ayudar a los usuarios a aprender más sobre la herramienta y cómo realizar diferentes búsquedas. Los creadores esperan que la herramienta pueda ser útil para historiadores, reporteros, educadores, investigadores profesionales o cualquier persona interesada en conocer la historia de los Estados Unidos a través de los periódicos.

La Biblioteca del Congreso señala que todas las imágenes incluidas en el Newspaper Navigator y el Chronicling America son de dominio público, lo que significa que la gente es libre de usarlas como desee.

Soy Bryan Lynn.

Bryan Lynn escribió esta historia para VOA Learning English, basada en informes de la Biblioteca del Congreso. Ashley Thompson era la editora.

Queremos saber de ti. Escríbenos en la sección de comentarios, y visita nuestra página de Facebook.

Cuestionario – Nueva herramienta de la IA busca en millones de páginas de periódicos históricos

Cuestionario - Nueva herramienta de la IA busca en millones de páginas de periódicos históricos

Empieza el concurso para averiguar

________________________________________________________________

Las palabras de esta historia

páginan. una parte de un sitio web

digitalizarv. para poner la información en la forma o una serie de números, por lo general para que pueda ser entendida por una computadora

personaje – – n. una letra, un número u otra marca o signo utilizado en la escritura o la impresión

comics – n. una serie de imágenes que cuentan una historia

contenido n. información contenida en un escrito, un discurso, una película o en Internet

visual – adj. relacionado con ver

patrocinador v. para pagar para que alguien haga algo o para que algo suceda

ubicación n. lugar donde algo ocurre

Recomendado:  Ingeniería asistida por aprendizaje automático de hidrolasas para la despolimerización de PET