Gráficos de conocimiento | Marzo 2021

Por Claudio Gutierrez, Juan F. Sequeda

Comunicaciones de la ACM,
Marzo de 2021,
Vol. 64 No. 3, páginas 96-104
10.1145 / 3418294
Comentarios

arbol de la vida, ilustración — Crédito: Anghi / Shutterstock

«Aquellos que no pueden recordar el pasado están condenados a repetirlo».
—George Santayana

Volver arriba

Ideas clave

La noción de Knowledge Graph surge de los avances científicos en diversas áreas de investigación como Web Semántica, bases de datos, representación y razonamiento del conocimiento, PNL y aprendizaje automático, entre otras. La integración de ideas y técnicas de disciplinas tan dispares presenta un desafío para los profesionales e investigadores para saber cómo los avances actuales se desarrollan a partir de las primeras técnicas y cómo se arraigan en ellas.

Comprender el contexto histórico y los antecedentes del área de investigación de uno es de suma importancia para comprender las posibles vías del futuro. Hoy en día, esto es más importante que nunca debido al mar casi infinito de información que uno enfrenta todos los días. Cuando se trata del área del Gráfico de conocimiento, hemos notado que los estudiantes e investigadores principiantes no son completamente conscientes de la fuente de las ideas, conceptos y técnicas que dominan.

Los elementos esenciales involucrados en la noción de gráficos de conocimiento se remontan a la historia antigua en la idea central de representar el conocimiento en forma de diagrama. Los ejemplos incluyen: Aristóteles y formas visuales de razonamiento, alrededor del 350 aC; Lull y su árbol del conocimiento; Linneo y taxonomías del mundo natural; y en el 19. siglo, los trabajos sobre el razonamiento formal y diagramático de científicos como J.J. Sylvester, Charles Peirce y Gottlob Frege. Estas ideas también involucran varias disciplinas como matemáticas, filosofía, lingüística, bibliotecología y psicología, entre otras.

Este artículo tiene como objetivo proporcionar un contexto histórico para las raíces de los gráficos de conocimiento basados en los avances de las disciplinas informáticas del conocimiento, los datos y la combinación de los mismos y, por lo tanto, centrarse en los desarrollos posteriores al advenimiento de la computación en su sentido moderno (década de 1950). ). Hasta donde sabemos, no tenemos conocimiento de una descripción general de las raíces históricas detrás de la noción de gráficos de conocimiento. Esperamos que este artículo sea una contribución en esta dirección. Esta no es una encuesta, por lo tanto, no necesariamente cubre todos los aspectos de los fenómenos y no hace un análisis cualitativo o cuantitativo sistemático de los artículos y sistemas sobre el tema.

Este artículo es la elección de los autores de una visión de la historia del tema con un énfasis pedagógico dirigido particularmente a los investigadores jóvenes. Presenta un mapa y pautas para navegar a través de las ideas, teorías y eventos más relevantes que, desde nuestra perspectiva, han desencadenado desarrollos actuales. El objetivo es ayudar a comprender qué funcionó y qué no funcionó, y reflexionar sobre cómo los diversos eventos y resultados inspiraron ideas futuras.

Por consideraciones pedagógicas, periodificamos las ideas, técnicas y sistemas relevantes en cinco temas: Adviento, Fundamentos, Mayoría de Edad, Era Web y Gran Escala.

Siguen una línea de tiempo, aunque con límites borrosos. La presentación de cada período se organiza a lo largo de dos ideas centrales: datos y conocimiento, además de una discusión sobre datos + conocimiento que muestra su interacción. Al final de cada sección, esbozamos una lista de «realizaciones» (en ambos sentidos, de tomar conciencia de algo, así como de logros de algo deseado o anticipado) y «limitaciones» (o impedimentos) del período. . La idea es motivar una reflexión sobre el balance del período. Al final de cada sección incluimos un párrafo que indica referencias a descripciones históricas y / o técnicas sobre los temas tratados.

Volver arriba

Advenimiento de la era digital

Los inicios están marcados por el advenimiento y difusión de las computadoras digitales y los primeros lenguajes de programación (LISP, FORTRAN, COBOL y ALGOL están entre los más icónicos) que dieron lugar al procesamiento digital de datos a escala masiva y al nacimiento de un nuevo área de ciencia y tecnología, a saber, informática. Los siguientes son cinco hilos relevantes de esta era:

Automatización del razonamiento. Después del primer programa para procesar información compleja, «Logic Theorist» de Newell, Shaw y Simon en 1956, desarrollaron el «Programa de resolución general» en 1958, que ilustra bien el paradigma que buscaban los investigadores: «este programa es parte de un esfuerzo de investigación de los autores para comprender los procesos de información que subyacen a las habilidades intelectuales, adaptativas y creativas humanas». Y el objetivo se estableció de la siguiente manera: «construir programas de computadora que puedan resolver problemas que requieran inteligencia y adaptación, y descubrir qué variedades de estos programas se pueden combinar en la resolución de problemas humanos». Esto fue continuado por varios otros desarrollos en la automatización del razonamiento, como el Principio de resolución de Robinson³³ y la conexión de Green y Raphael entre la demostración de teoremas y la deducción en bases de datos mediante el desarrollo de sistemas de respuesta a preguntas.¹⁴ A nivel práctico, hubo múltiples implementaciones de características de «razonamiento». Un ejemplo es ELIZA de Joseph Weizenbaum, un programa que podría llevar un diálogo en inglés sobre cualquier tema, siempre que esté programado correctamente.
Buscando en espacios. Los investigadores reconocieron que el proceso de búsqueda en grandes espacios representaba una forma de «inteligencia» o «razonamiento». Tener una comprensión de dicho espacio facilitaría la búsqueda. La clasificación es un ejemplo sencillo. Fácilmente el 25% del tiempo de la computadora hasta la década de 1970 se utilizó en la clasificación de datos para hacer factible cualquier procedimiento de búsqueda.⁶ La misma noción de búsqueda era bien conocida por las personas que trabajaban en el procesamiento de datos, incluso antes de la llegada de las computadoras. Sin embargo, la idea de buscar en espacios diversos y complejos era nueva, como los espacios de búsqueda que surgen en los juegos (por ejemplo, ajedrez, damas y Go). El famoso algoritmo de Dijkstra para encontrar caminos cortos es de 1956, y su generalización A * es de 1968.¹⁹

Recuperar información de fuentes no estructuradas. Una vez que se tienen las capacidades computacionales, se pueden obtener datos de fuentes más allá de los datos estructurados tradicionales. Las ideas se remontan al informe de V. Bush «As We May Think», pero se desarrollaron sistemáticamente en la década de 1950.¹¹ Un hito fue «SIR: un programa informático para la recuperación de información semántica» de Bertram Raphael (1964).³¹ Este sistema demostró lo que podría llamarse la capacidad de «comprender» información semántica. Utiliza asociaciones de palabras y listas de propiedades para la información relacional que normalmente se transmite en declaraciones conversacionales. Un procedimiento de coincidencia de formato extrae contenido semántico de oraciones en inglés.
Idiomas y sistemas para gestionar datos. Uno de los primeros sistemas para administrar datos fue el Integrated Data Store (IDS) diseñado por Charles Bachman en 1963.² El sistema IDS mantenía una colección de archivos compartidos en disco, tenía herramientas para estructurarlos y mantenerlos, y un lenguaje de aplicación para manipular datos. Esto permitió la eficiencia a costa de lo que más tarde se denominó «independencia de datos». IDS se convirtió en la base del estándar CODASYL, que se conoció como sistemas de gestión de bases de datos (DBMS). Además, la idea de que debería haber más lenguajes dedicados para manejar datos llevó a la creación de COBOL (1959), que es un ejemplo temprano de un lenguaje de programación orientado al manejo de datos y con una sintaxis parecida al inglés.
Representación gráfica del conocimiento. Las redes semánticas fueron introducidas en 1956 por Richard H. Richens, botánico y lingüista computacional, como una herramienta en el área de traducción automática de lenguajes naturales.³² La noción fue desarrollada de forma independiente por varias personas. El artículo de 1963 de Ross Quillian «Una notación para representar información conceptual: una aplicación a la semántica y la paráfrasis mecánica inglesa» tenía como objetivo permitir que la información «se almacene y procese en una computadora» siguiendo el modelo de la memoria humana. La idea de buscar «principios de diseño para una gran memoria que puedan permitirle servir como base del conocimiento subyacente al comportamiento del lenguaje similar al humano» se desarrolló en su tesis doctoral «Conceptos de Word: una teoría y simulación de algunas capacidades semánticas básicas «en 1967.²⁹

Bosquejo de realizaciones y limitaciones en el período. Entre las realizaciones, se destacan las siguientes: La conciencia de la importancia y las posibilidades del razonamiento automatizado; el problema de lidiar con grandes espacios de búsqueda; la necesidad de comprender el lenguaje natural y otras representaciones humanas del conocimiento; el potencial de las redes semánticas (y las representaciones gráficas en general) como capas de abstracción; y la relevancia de los sistemas y lenguajes de alto nivel para gestionar datos. En cuanto a las limitaciones, entre las más destacadas se encuentran: las limitadas capacidades (físicas y técnicas) del hardware; la disponibilidad y el alto costo del hardware; la brecha entre la representación gráfica y la implementación secuencial; y la brecha entre la lógica del lenguaje humano y el manejo de datos por sistemas informáticos.

Resumen y fuentes secundarias. Para informática, P.E. Ceruzzi, Historia de la informática moderna; para la historia de la IA: N.J. Nilsson, La búsqueda de la inteligencia artificial.

Volver arriba

Bases de datos y conocimiento

La década de 1970 fue testigo de una adopción mucho más amplia de la informática en la industria. Estos son los años en que se fundaron empresas como Apple y Microsoft. Nacieron los sistemas de procesamiento de datos como Wordstar y VisiCalc, predecesores de los actuales procesadores de texto personales y hojas de cálculo. El creciente poder de almacenamiento y procesamiento, así como la experiencia humana, impulsaron la necesidad de mejorar la forma en que se deben administrar los datos para las grandes empresas.

Datos. El crecimiento de las necesidades de procesamiento de datos trajo una división del trabajo expresada en la noción de independencia de representación. Los programadores y las aplicaciones ahora podían «olvidar» cómo se estructuraban físicamente los datos para acceder a los datos. Esta idea es el núcleo del artículo de Edgar Codd «Un modelo relacional de datos para grandes bancos de datos compartidos».⁸ que describe el uso de relaciones como modelo matemático para proporcionar independencia representacional; Codd llama a esto «independencia de datos». Esta teoría y filosofía de diseño fomentó los sistemas de gestión de bases de datos y las herramientas de modelado.

A nivel de modelado, Peter Chen presentó un modelo de datos gráficos en su artículo «El modelo de relación entre entidades: hacia una vista unificada de datos»,⁷ que abogaba por modelar datos basados en entidades y relaciones entre ellas. Estos modelos de ER incorporaron información semántica del mundo real en forma de gráficos. Es uno de los primeros intentos de vincular un diseño conceptual con un modelo de datos, en este caso el modelo de datos relacionales.

A nivel de sistema, se desarrollaron e implementaron aplicaciones de software para la gestión de datos basados en el modelo relacional, conocido como Relational Database Management Systems (RD-BMS). Dos sistemas clave durante este tiempo fueron el System R de IBM, descrito en el documento «System R: Relational Approach to Database Management» (1976), y el INGRES de la Universidad de California en Berkeley, descrito en «The Design and Implementation of INGRES» (1976). . Estos sistemas fueron los primeros en implementar la «visión» del modelo relacional descrito por Codd, incluidos los lenguajes de consulta relacional como SEQUEL y QUEL, que llevarían a SQL, el lenguaje de consulta declarativo más exitoso que existe.

Conocimiento. Si bien el flujo de datos se centró en la estructura de los datos y en la creación de sistemas para administrarlos mejor, el conocimiento se centró en el significado de los datos. Un desarrollo temprano en esta dirección fue el trabajo de S.C. Shapiro, quien propuso una estructura de datos de red para organizar y recuperar información semántica.³⁴ Estas ideas se implementaron en la red semántica y el sistema de procesamiento (SNePS), que puede considerarse como uno de los primeros sistemas KRR independientes.

A mediados de la década de 1970, surgieron varias críticas a las estructuras de redes semánticas, centrándose en su débil base lógica. Una representación de esta crítica fue el artículo de 1975 de William Woods «What’s in a Link: Foundations for Semantic Networks».⁴⁰

Los investigadores se centraron en extender las redes semánticas con semántica formal. Un enfoque temprano para proporcionar estructura y extensibilidad al conocimiento local y minucioso fue la noción de marcos. Esto fue introducido por Marvin Minsky en su artículo de 1974 «Un marco para representar el conocimiento».²⁷ Un marco se definió como una red de nodos y relaciones. En 1976, John Sowa introdujo los gráficos conceptuales en su artículo «Gráficos conceptuales para una interfaz de base de datos».³⁶ Los gráficos conceptuales sirven como lenguaje intermedio para mapear consultas y afirmaciones en lenguaje natural a una base de datos relacional. El formalismo representó una lógica ordenada con tipos para conceptos y relaciones. En su artículo de 1977 «En defensa de la lógica», Patrick Hayes reconoció que las redes marco se pueden formalizar utilizando la lógica de primer orden.²⁰ Este trabajo más tarde influiría en Brachman y Levesque para identificar un subconjunto manejable de lógica de primer orden, que se convertiría en el primer desarrollo en Lógicas de descripción (ver la siguiente sección).

Datos + Conocimiento. En la década de 1970, los datos y el conocimiento comenzaron a experimentar una integración. Robert Kowalski, en «Predicate Logic as Programming Language»,²³ introdujo el uso de la lógica como una representación tanto declarativa como procedimental del conocimiento, un campo ahora conocido como programación lógica. Estas ideas fueron implementadas por Alain Colmerauer en PROLOG.

Los primeros sistemas que podían razonar basándose en el conocimiento, conocidos como sistemas basados en el conocimiento, y resolver problemas complejos eran sistemas expertos. Estos sistemas codificaron el conocimiento del dominio como si fueran reglas. R. Davis, B. Buchanan y E. Shortliffe estuvieron entre los primeros en desarrollar un sistema experto exitoso, MYCIN, que se convirtió en un ejemplo clásico para seleccionar la terapia con antibióticos para la bacteriemia.¹⁰ Un problema abierto era comprender dónde obtener los datos y el conocimiento. Esta área se llamaría adquisición de conocimiento.

Los gráficos conceptuales sirven como lenguaje intermedio para mapear consultas y afirmaciones en lenguaje natural a una base de datos relacional.

El taller de 1977 sobre «Lógica y bases de datos», celebrado en Toulouse, Francia, y organizado por Herve Gallaire, Jack Minker y Jean-Marie Nicolas,¹³ se considera un evento histórico. En este taller se presentaron nociones importantes como la Asunción del mundo cerrado de Ray Reiter y la Negación como fracaso de Keith Clark, que puede considerarse el nacimiento del enfoque lógico de los datos. Muchos investigadores consideran que este fue el evento que formalizó el vínculo entre la lógica y las bases de datos, designándolo como un campo en sí mismo.

Bosquejo de realizaciones y limitaciones en el período. Las realizaciones de este período incluyen: la necesidad y el potencial de independencia representacional, como lo demuestra el caso del modelo relacional; implementaciones prácticas y exitosas del modelo relacional; la comprensión de que las redes semánticas requieren marcos formales que utilicen las herramientas de la lógica formal; y la conciencia del potencial de combinar lógica y datos a través de redes. Las limitaciones incluyen: en el lado de los datos, la inflexibilidad de las estructuras de datos tradicionales para representar nuevas variedades de datos (lo que dio lugar a estructuras de datos de gráficos y orientadas a objetos); por el lado del conocimiento, la debilidad de la formalización lógica del conocimiento común (que será el motivo del surgimiento de las lógicas descriptivas).

Resumen y fuentes secundarias. Sobre programación lógica: A. Colmerauer y Ph. Roussel, El nacimiento de Prolog; R. Kowalski, Los primeros años de la programación lógica. Sobre la representación del conocimiento: R.H. Brachman, H.J. Levesque, Lecturas en representación del conocimiento. Sobre sistemas expertos: F. Puppe, Introducción sistemática a los sistemas expertos, Capítulo 1.

Volver arriba

Mayoría de edad de datos y conocimientos

La década de 1980 vio la evolución de la informática a medida que pasaba de la industria a los hogares a través del auge de las computadoras personales. En el campo de la gestión de datos, la industria de las bases de datos relacionales se estaba desarrollando rápidamente (Oracle, Sybase, IBM, entre otros). Las abstracciones orientadas a objetos se desarrollaron como una nueva forma de independencia representacional. Internet cambió la forma en que las personas se comunicaban e intercambiaban información.

Datos. El aumento de la potencia computacional impulsó el desarrollo de nuevos campos y artefactos informáticos. Estos, a su vez, generaron datos complejos que debían ser administrados. Además, la revolución relacional, que postuló la necesidad de independencia representacional, llevó a una separación del programa de software de los datos. Esto impulsó la necesidad de encontrar formas de combinar lenguajes de programación orientados a objetos con bases de datos. Esto dio lugar al desarrollo de bases de datos orientadas a objetos (OODB). Esta área de investigación investigó cómo manejar datos complejos mediante la incorporación de características que serían centrales en el futuro de los datos, como objetos, identificadores, relaciones, herencia, igualdad, etc. Muchos sistemas de la academia y la industria florecieron durante este tiempo, como Encore-Observer (Universidad de Brown), EXODUS (Universidad de Wisconsin-Madison), IRIS (Hewlett-Packard), ODE (Bell Labs), ORION (MCC) y Zeitgeist. (Texas Instruments), lo que dio lugar a varias ofertas comerciales.

Los gráficos comenzaron a investigarse como una representación de datos orientados a objetos, interfaces gráficas y visuales, hipertexto, etc. Un caso temprano fueron los higraphs de Harel,¹⁸ que formalizan relaciones en una estructura visual, y ahora se utilizan ampliamente en UML. Alberto Mendelzon y sus alumnos desarrollaron los primeros lenguajes de consulta de gráficos mediante la recursividad.⁹ Este trabajo se convertiría en la base de los lenguajes de consulta de gráficos modernos.

Conocimiento. Un logro importante en la década de 1980 fue comprender el equilibrio entre el poder expresivo de un lenguaje lógico y la complejidad computacional de las tareas de razonamiento. El artículo de Brachman y Levesque «La tratabilidad de la subsunción en lenguajes de descripción basados en marcos» fue uno de los primeros en destacar este problema.⁴ Al aumentar el poder expresivo en un lenguaje lógico, aumenta la complejidad computacional. Esto llevó a la investigación de compensaciones a lo largo del continuo de expresividad, dando lugar a una nueva familia de lógicas llamada Descripción Lógicas. Los sistemas destacados son KL-ONE, LOOM y CLASSIC, entre otros. Además de Description Logic, en ese momento también se estaba desarrollando otro formalismo: F-Logic estaba fuertemente influenciado por objetos y marcos, lo que le permitía razonar sobre esquemas y estructuras de objetos dentro del mismo lenguaje declarativo.²²

El aumento de la potencia computacional impulsó el desarrollo de nuevos campos y artefactos informáticos. Estos, a su vez, generaron datos complejos que debían ser administrados.

Estos primeros sistemas lógicos mostraron que el razonamiento lógico se podía implementar en software manejable. Se convertirían en la base de OWL, el lenguaje de ontología para la Web Semántica.

Además, el desarrollo de técnicas de razonamiento no monótonas se produjo durante este tiempo, por ejemplo, la introducción de numerosos formalismos para el razonamiento no monótono, incluida la circunscripción, la lógica predeterminada, las lógicas autoepistémicas y las lógicas condicionales.

Datos + Conocimiento. Un desarrollo relevante en la década de 1980 fue el Proyecto Japonés de Quinta Generación.

Dado el éxito de Japón en las industrias automotriz y electrónica, buscaban tener éxito en el software. El objetivo era crear hardware y software de inteligencia artificial que combinaran lógica y datos y pudieran mantener conversaciones, traducir idiomas, interpretar imágenes y razonar como seres humanos. Los japoneses adoptaron la programación lógica como base para combinar lógica y datos.

El proyecto japonés provocó una actividad mundial que condujo a proyectos competidores como el Consorcio de Microelectrónica y Tecnología Informática (MCC) en los EE. UU., El Centro Europeo de Investigación en Computación (ECRC) en Múnich y el Proyecto Alvey en el Reino Unido. MCC fue un importante centro de investigación. tanto en hardware como en software a lo largo de los años ochenta y noventa. Por ejemplo, el proyecto Cyc, que surgió de MCC, tenía el objetivo de crear la base de conocimientos de sentido común más grande del mundo para usarla en aplicaciones que realicen un razonamiento similar al humano.

Los sistemas expertos proliferaron en la década de 1980 y estuvieron en el centro del bombo de la IA. Vemos el desarrollo de sistemas de reglas de producción como OPS5, el algoritmo Rete,¹² y el algoritmo de tratamiento para implementar de manera eficiente sistemas basados en reglas. Se desplegaron sistemas expertos en computadoras paralelas, como la Computadora Paralela DADO, la Máquina de Conexión y el Proyecto PARKA, entre otros. Los sistemas expertos comenzaron a mostrar valor comercial (por ejemplo, Xcon, ACE). Los capitalistas de riesgo comenzaron a invertir en empresas de inteligencia artificial como IntelliCorp, ILOG, Neuron Data y Haley Systems, entre otras.

En el aspecto académico, un enfoque inicial de combinar lógica y datos consistió en superponer la programación lógica a las bases de datos relacionales. Dado que los programas lógicos especifican la funcionalidad («el qué») sin especificar un algoritmo («el cómo»), la optimización juega un papel clave y se consideró mucho más difícil que el problema de optimización de consultas relacionales. Esto dio lugar a sistemas de bases de datos deductivos, que extendían de forma nativa bases de datos relacionales con reglas recursivas. Datalog, un subconjunto de Prolog para datos relacionales con una semántica limpia, se convirtió en el lenguaje de consulta para bases de datos deductivas.⁵ Uno de los primeros sistemas de bases de datos deductivos fue el sistema LDL, presentado en el artículo de Tsur y Zaniolo «LDL: A Logic-Based Data-Language».³⁷ Muchas de estas ideas se manifestaron directamente en bases de datos relacionales conocidas entonces como bases de datos activas.

A principios de la década de 1990, los sistemas expertos resultaron costosos y difíciles de actualizar y mantener. Era difícil explicar las deducciones, eran frágiles y limitadas a dominios específicos. Por lo tanto, el mundo de las tecnologías de la información siguió adelante e incorporó esa experiencia a las principales herramientas de TI de proveedores como IBM, SAP y Oracle, entre otros. Una década después del inicio del proyecto japonés de quinta generación, su impresionante lista original de objetivos no se había cumplido. La financiación se agotó y estos factores llevaron a lo que se ha llamado un invierno de IA.

A finales de esta década apareció el primer estudio sistemático con el término «Gráfico de conocimiento». Fue el Ph.D. Tesis de R.R. Bakker, «Gráficos de conocimiento: representación y estructuración del conocimiento científico». Muchas de estas ideas se publicaron más tarde (1991) en un informe escrito por P. James (un nombre que representa a muchos investigadores) y titulado «Gráficos de conocimiento».²¹ El término no se difundió ampliamente hasta la segunda década del siglo siguiente.

Bosquejo de realizaciones y limitaciones en el período. Entre las realizaciones más importantes se encuentra el hecho de que la integración entre la lógica y los datos debe estar estrechamente acoplada, es decir, no es suficiente superponer los sistemas Prolog / Expert sobre una base de datos; y la relevancia del compromiso entre el poder expresivo de los lenguajes lógicos y la complejidad computacional de las tareas de razonamiento. Dos limitaciones principales merecen ser destacadas: el hecho de que la negación era un problema difícil y todavía no se entendía bien en este momento; y ese razonamiento a gran escala era un problema insuperable; en particular, el hardware no estaba listo para la tarea. Esto se conocería como el cuello de botella en la adquisición de conocimientos.

Resumen y fuentes secundarias. Sobre los años dorados de las bases de datos de gráficos, véase R. Angles, C. Gutierrez, Estudio de modelos de bases de datos gráficas. En bases de datos O-O: M. Atkinson et al., TEl Manifiesto del Sistema de Base de Datos Orientado a Objetos. Sobre los japoneses 5^th Proyecto de generación: E. Shapiro et.al. El 5^th Proyecto de generación: perspectivas personales.

Volver arriba

Datos, conocimiento y la web

La década de 1990 fue testigo de dos fenómenos que cambiarían el mundo. Primero, el surgimiento de la World Wide Web, la infraestructura de información global que revolucionó las prácticas tradicionales de datos, información y conocimiento. La idea de un espacio universal de información donde cualquiera pudiera publicar y leer, comenzando con texto e imágenes, de manera distribuida, cambió por completo la filosofía y las prácticas de gestión del conocimiento y los datos. En segundo lugar, la digitalización de casi todos los aspectos de nuestra sociedad. Todo empezó a pasar del papel a la electrónica. Estos fenómenos allanaron el camino hacia lo que hoy se conoce como Big Data. Tanto la investigación como la industria se trasladaron a estas nuevas áreas de desarrollo.

Datos. La industria de bases de datos se centró en desarrollar y ajustar RD-BMS para abordar las demandas planteadas por el comercio electrónico popularizado a través de la Web. Esto llevó a la generación de grandes cantidades de datos que debían integrarse y analizarse. La investigación se basó en este impulso y se centró en las áreas de datos web, integración de datos, almacenamiento de datos / OLAP y minería de datos.

La comunidad de datos se movió hacia la Web. Diversos esfuerzos ayudaron a desarrollar la comprensión de los datos y los cálculos en la Web, como se muestra en artículos como «Modelos formales de la Web» de Mendelzon y Milo.²⁶ y «Consultas y Computación en la Web» por Abiteboul y Vianu.¹ La Web provocó la necesidad de distribuir datos autodescriptivos. Un resultado clave del cumplimiento de estos objetivos fueron los modelos de datos semiestructurados, como Object Exchange Model (OEM), Extensible Markup Language (XML) y Resource Description Framework (RDF), entre otros.

Durante este tiempo, las organizaciones necesitaban la integración de fuentes de datos múltiples, distribuidas y heterogéneas para poder tomar decisiones comerciales. Las bases de datos federadas habían comenzado a abordar este problema en la década de 1980 (ver encuesta³⁵). Durante este período, la industria y la academia unieron fuerzas y desarrollaron proyectos como TSIMMIS y Lore de Stanford / IBM, SIMS de USC, InfoSleuth de MCC, entre muchos otros. Estos sistemas introdujeron la noción de mediadores y envoltorios.³⁹ Sistemas como SIMS e InfoSleuth también introdujeron ontologías en la combinación de integración de datos.

En este contexto, debido a la cantidad de datos que se generaban e integraban, era necesario impulsar los informes de decisiones comerciales. Esto dio lugar a sistemas de almacenamiento de datos con datos modelados en esquemas de estrella y copo de nieve. Estos sistemas podrían admitir análisis en cubos de datos multidimensionales, conocidos como procesamiento analítico en línea (OLAP). Gran parte de la investigación se centró en crear heurísticas para implementar optimizaciones de consultas para cubos de datos. Las necesidades comerciales impulsaron el desarrollo de técnicas de minería de datos para descubrir patrones en los datos.

Conocimiento. Los investigadores se dieron cuenta de que la adquisición de conocimientos era el cuello de botella para implementar sistemas expertos y basados en el conocimiento. Los talleres de adquisición de conocimientos (KAW en Canadá y EKAW en Europa) fueron una serie de eventos en los que los investigadores debatieron el problema del cuello de botella en la adquisición de conocimientos. El tema evolucionó y creció en los campos de la ingeniería del conocimiento y la ingeniería ontológica.

La Web fue una comprensión de que el conocimiento, no solo los datos, también deben compartirse y reutilizarse. La necesidad de pasar de los metadatos administrativos a las descripciones semánticas formales dio lugar a la expansión de los lenguajes para describir y razonar sobre taxonomías y ontologías.

Gruber definió la noción de ontología como una «especificación formal y compartida de una conceptualización».¹⁵

Entre los primeros científicos que defendieron la relevancia de las ontologías se encuentran N. Guarino,^dieciséis M. Uschold y M. Grunninger.³⁸ Investigación enfocada en metodologías para diseñar y mantener ontologías, como METHONOLOGY, metodología de Adquisición de Conocimiento y Estructuración de Documentación (KADS), CommonKADS, y métodos especializados como OntoClean. Observamos el surgimiento de las primeras herramientas de ingeniería de ontologías (por ejemplo, Ontolingua, WebODE y Protege) para ayudar a los usuarios a codificar el conocimiento.

Datos + Conocimiento. La combinación de datos y conocimientos en los sistemas de gestión de bases de datos se manifestó a través de Bases de datos deductivas. Los talleres especializados sobre bases de datos deductivas (1990-1999) y la representación del conocimiento en las bases de datos (1994-2003) fueron un centro para la actividad del campo.³⁰ Estos desarrollos llevaron a versiones refinadas de Datalog, como probabilística, disyuntiva y Datalog +/-.

Un desafío importante que impulsó la investigación fue cómo lidiar con el razonamiento formal a escala web. De hecho, ver la Web como un espacio universal de datos y conocimientos impulsó la necesidad de desarrollar lenguajes para describir, consultar y razonar sobre este vasto universo. El proyecto de Web Semántica es un esfuerzo por combinar conocimientos y datos en la Web. Los siguientes desarrollos influyeron y enmarcaron el proyecto de Web Semántica: Extensiones de Ontología HTML Simple (SHOE), Ontobroker, Capa de Inferencia de Ontología (OIL) y DARPA Agent Markup Language (DAML), Knowledge Query and Manipulation Language (KQML), y el programa financiado por la UE Red temática OntoWeb (intercambio de información basado en ontologías para la gestión del conocimiento y el comercio electrónico) entre otros. El objetivo era converger tecnologías como la representación del conocimiento, las ontologías, la lógica, las bases de datos y la recuperación de información en la Web. Estos desarrollos dieron lugar a un nuevo campo de investigación y práctica centrado en la Web y sus posibilidades.

Bosquejo de realizaciones y limitaciones en el período. La principal constatación fue que la Web estaba empezando a cambiar rápidamente la forma en que tradicionalmente se concibía el mundo de los datos, la información y el conocimiento; estaban proliferando nuevos tipos de datos, particularmente datos de medios como imágenes, video y voz; y, finalmente, la conciencia de que los datos deben estar, y ahora pueden estar, conectados para obtener valor. Entre las limitaciones cabe mencionar que el poder computacional no fue suficiente para manejar los nuevos niveles de datos producidos por la Web; y que las técnicas lógicas puras tienen límites de complejidad que hacen que su escalabilidad a ciertas áreas de crecimiento como la búsqueda y la coincidencia de patrones sea muy difícil y, a veces, inviable.

Resumen y fuentes secundarias. Acerca de la Web: T. Berners-Lee, Tejiendo la Web. Sobre los datos y la Web: S. Abiteboul et al., Datos en la Web: de relaciones a datos semiestructurados y XML. Sobre ingeniería de ontología: R. Studer et al., Ingeniería del conocimiento: principios y métodos. Sobre lenguajes de ontología web: I. Horrocks et al., De SHIQ y RDF a OWL: la creación de un lenguaje de ontología web.

Volver arriba

Datos y conocimiento a gran escala

La década de 2000 vio la explosión del comercio electrónico y las redes sociales en línea (Facebook, Twitter, etc.). Los avances en hardware y nuevos sistemas hicieron posible generar, almacenar, procesar, administrar y analizar datos a una escala mucho mayor. Entramos en la revolución del Big Data. During this era, we see the rise of statistical methods by the introduction of deep learning into AI.

Data. Web companies such as Google and Amazon pushed the barrier on data management.

Google introduced an infrastructure to process large amounts of data with MapReduce. The emergence of non-relational, distributed, data stores got a boom with systems such as CouchDB, Google Bigtable and Amazon Dynamo. This gave rise to «NoSQL» databases that (re-)popularized database management systems for Column, Document, Key-Value and Graph data models.

Many of the developments were triggered by the feasibility to handle and process formats like text, sound, images, and video. Speech and image recognition, image social networks like Flickr, advances in NLP, and so on consolidated the notion that «data» is well beyond tables of values.

The data management research community continued its research on data integration problems such as schema matching, entity linking, and XML processing. Database theory researchers studied data integration and data exchange from a foundational point of view.²⁵

Knowledge. The Description Logic research community continued to study trade-offs and define new profiles of logic for knowledge representation. Reasoning algorithms were implemented in software systems (for example, FACT, Hermit, Pellet). The results materialized as the European Ontology Inference Layer (OIL) DARPA Agent Markup Language (DAML) infrastructure. Both efforts joined forces and generated DAML+OIL, a thin ontology layer built on RDF with formal semantics based on description logics. This influenced the standardization of the Web Ontology Language (OWL) in 2004, which is a basis for the Semantic Web.

Big Data drove statistical applications to knowledge via machine learning and neural networks. Statistical techniques advanced applications that deduced new facts from already known facts. The 2012 work on image classification with deep convolutional neural networks with GPUs²⁴ is signaled as a result that initiated a new phase in AI: deep learning.

The original attempts in the 1960s to model knowledge directly through neural networks were working in practice. These techniques and systems now would outperform many human specific tasks such as classification, and applications where large amounts of training data and powerful hardware are available.

Data + Knowledge. The connection between data and knowledge was developed in this period along two lines, namely logical and statistical.

On the logical thread, the Semantic Web project was established, built upon previous results like the graph data model, description logics, and knowledge engineering.

The paper «The Semantic Web» by Tim Berners-Lee, Jim Hendler and Ora Lassila³ sparked an excitement from industry and academia. The technologies underpinning the Semantic Web were being developed simultaneously by academia and industry through the World Wide Web Consortium (W3C) standardization efforts. These resulted in Resource Description Framework (RDF), Web Ontology Language (OWL), and SPARQL Protocol and RDF Query Language (SPARQL), among others.

In 2006, Tim Berners-Lee coined the term «Linked Data» to design a set of best practices highlighting the network structure of data on the Web in order to enhance knowledge.

This gave rise to the Linked Open Data (LOD) project and large RDF graph-based knowledge bases such as DBPedia, and Freebase, which would eventually lead to Wikidata. The LOD project was a demonstration of how data could be integrated at Web scale. In 2011, the major search engines released schema.org, a lightweight ontology, as a way to improve the semantic annotation of Web pages. These efforts were built on the results of the Semantic Web research community.

On the statistical thread, the beginning of the 21^st century witnessed advances and successes in statistical techniques for large-scale data processing such as speech recognition, NLP, and image processing. This motivated Halevy, Norvig, and Pereira to speak of the «the unreasonable effectiveness of data.»¹⁷ This is probably one of the drivers that motivated the search for new forms of storing, managing and integrating data and knowledge in the world of Big Data and the emergence of the notion of Knowledge Graph. Furthermore, researchers have been making efforts to address statistical phenomena while incorporating techniques from logic and traditional databases such as statistical relational learning since the 1990s. Finally, it is relevant to highlight a new field dealing with data and knowledge that emerged under these influences: Data science.

Sketch of realizations and limitations in the period. Among the realizations in this period, we learned to think about data and knowledge in a much bigger way, namely at Web scale; and the world of data entered the era of neural networks due to new hardware and clever learning techniques. One of the main limitations that made advances in this area difficult, is the fact that, although people realized the need to combine logical and statistical techniques, little is yet known on how to integrate these approaches. Another important limitation is that statistical methods, particularly in neural networks, still are opaque regarding explanation of their results.

The beginning of the 21st century witnessed advances and successes in statistical techniques for large-scale data processing such as speech recognition, NLP, and image processing.

Overview and secondary sources. D. Agrawal et al., Challenges and Opportunities with Big Data. T. Hey et al. The Fourth Paradigm: Data-Intensive Scientific Discovery. R. Fagin et al. Reasoning About Knowledge.

Where Are We Now?

A noticeable phenomenon in the history we have sketched is the never-ending growth of data and knowledge, in both size and diversity. At the same time, an enormous diversity of ideas, theories, and techniques were being developed to deal with it. Sometimes they reached success and sometimes ended in failure, depending on physical and social constraints whose parameters most of the time were far out of the researcher’s control.

In this framework, historical accounts can be seen as a reminder that absolute success or failure does not exist, and that each idea, theory, or technique needs the right circumstances to develop its full potential. This is the case with the notion of Knowledge Graphs. In 2012, Google announced a product called the Google Knowledge Graph. Old ideas achieved worldwide popularity as technical limitations were overcome and it was adopted by large companies. In parallel, other types of «Graph» services were developed, as witnessed by similar ideas by other giants like Microsoft, Facebook, Amazon and Ebay.²⁸ Later, myriad companies and organizations started to use the Knowledge Graph keyword to refer to the integration of data, given rise to entities and relations forming graphs. Academia began to adopt this keyword to loosely designate systems that integrate data with some structure of graphs, a reincarnation of the Semantic Web, and Linked Data. In fact, today the notion of Knowledge Graph can be considered, more than a precise notion or system, an evolving project and a vision.

The ongoing area of Knowledge Graphs represents in this sense a convergence of data and knowledge techniques around the old notion of graphs or networks. From the data tradition, database technologies, and systems began to be developed by various companies and academia; manifold graph query languages are being developed: standard languages such as SPARQL and SPARQL 1.1, new industrial languages like Cypher, GSQL, and PGQL, research languages such as G-CORE, and the upcoming ISO standard GQL. On the other hand, we see a wealth of knowledge technologies addressing the graph model: on the logical side, the materialization and implementation of old ideas like semantic networks, and frames, or more recently, the Semantic Web and Linked Data projects; on the statistical side, techniques to extract, learn, and code knowledge from data on a large scale through knowledge graph embeddings.

It is not easy to predict the future, particularly the outcome of the interplay between data and knowledge, between statistics and logic. Today we are seeing a convergence of statistical and logical methods, with the former temporarily overshadowing the latter in the public eye. It is for this reason that we consider it relevant to call attention to history and «recover» the long-term significance of the achievements in the areas of data and knowledge. As we pointed out, even though some ideas and developments of the past may not have been successful or well known (or even known at all) at the time, they surely contain fruitful ideas to inspire and guide future research.

If we were to summarize in one paragraph the essence of the developments of the half century we have presented, it would be the following: Data was traditionally considered a commodity, moreover, a material commodity—something given, with no semantics per se, tied to formats, bits, matter. Knowledge traditionally was conceived as the paradigmatic «immaterial» object, living only in people’s minds and language. We have tried to show that since the second half of the 20th century, the destinies of data and knowledge became bound together by computing.

We have attempted to document how generations of computing scientists have developed ideas, techniques, and systems to provide material support for knowledge and to elevate data to the conceptual place it deserves.

Expresiones de gratitud

This work was funded by ANID – Millennium Science Initiative Program – Code ICN17_002.

We reached out to many colleagues asking for their input on this article. We are extremely thankful for their helpful feedback: Harold Boley, Isabel Cruz, Jerome Euzenat, Dieter Fensel, Tim Finin, Enrico Franconi, Yolanda Gil, Joe Hellerstein, Jim Hendler, Jan Hidders, Ian Horrocks, Bob Kowalski, Georg Lausen, Leonid Libkin, Enrico Motta, Misty Nodine, Natasha Noy, Amit Sheth, Steffen Staab, Rudi Studer, Michael Uschold, Frank van Harmelen, Victor Vianu, Darrell Woelk, and Peter Wood. Juan thanks Daniel Miranker for inspiration on the topic of this article. We also thank Schloss Dagstuhl for hosting us in 2017 and 2018 to do this research and copyeditor Melinda O’Connell.

References

1. Abiteboul, S. and Vianu, V. Queries and computation on the Web. En Proceedings of the 6^th Intern. Conf. Database Theory, 1997.

2. Bachman, C.W. The origin of the integrated data store (IDS): The first direct-access DBMS. IEEE Ann. Hist. Comput. 31, 4 (Oct. 2009), 42–54.

3. Berners-Lee, T., James Hendler, J. and Ora Lassila, O. The Semantic Web. Sci. Amer. 5 (May 2001), 34–43.

4. Brachman, R.J and Levesque, H.J. The tractability of subsumption in frame-based description languages. En Proceedings of the Nat. Conf. Artificial Intelligence. (Austin, TX, USA, Aug. 6–10, 1984), 34–37.

5. Ceri, S., Gottlob, G., and Tanca, L. What you always wanted to know about datalog (and never dared to ask). IEEE Trans. Knowl. Data Eng. 1, 1 (1989), 146–166.

6. Ceruzzi, P.E. A History of Modern Computing (2 ed.). MIT Press, Cambridge, MA, USA, 2003.

7. Chen, P.P. The entity-relationship model—Toward a unified view of data. ACM Trans. Database Syst. 1, 1 (1976), 9–36.

8. Codd, E.F. A relational model of data for large shared data banks. Commun. ACM 13, 6 (1970), 377–387.

9. Cruz, I.F, Mendelzon, A.O. and Wood, P.T A graphical query language supporting recursion. SIGMOD, 1987, 323–330.

10. Davis, R., Buchanan, B., and Shortliffe, E. Production rules as a representation for a knowledge-based consultation program. Artif. Intell. 8, 1 (Feb. 1977), 15–45.

11. Fairthorne, R.A. Automatic retrieval of recorded information. Comput. J. 1, 1 (Jan. 1958), 36–41.

12. Forgy, C. Rete: A fast algorithm for the many patterns/many objects match problem. Artif. Intell. 19, 1 (1982), 17–37.

13. Gallaire, H. and Minker, J. (Eds.). Proceedings of the Symposium on Logic and Data Bases, Centre d’études et de recherches de Toulouse, France, 1977.

14. Green, C.C. and Raphael, B. The use of theorem-proving techniques in question-answering systems. En Proceedings of the 1968 23^rd ACM National Conf., 169–181.

15. Gruber, T.R. Toward principles for the design of ontologies used for knowledge sharing. Int. J. Hum.-Comput. Stud. 43, 5–6 (Dec. 1995), 907–928.

16. Guarino, N. Formal ontology, conceptual analysis and knowledge representation. Int. J. Hum.-Comput. Stud. 43, 5–6 (Dec. 1995), 625–640.

17. Halevy, A.Y., Norvig, P. and Pereira, F. The unreasonable effectiveness of data. IEEE Intell. Syst. 24, 2 (2009), 8–12.

18. Harel, D. On visual formalisms. Commun. ACM 31, 5 (1988), 514–530.

19. Hart, P.E., Nilsson, N.J., and Raphael, B. A formal basis for the heuristic determination of minimum cost paths. IEEE Trans. Systems Science and Cybernetics 4, 2 (1968), 100–107.

20. Patrick J. Hayes. 1977. In Defense of Logic. En IJCAI. 559–565.

21. James, P. Knowledge graphs. Number 945 in Memorandum Faculty of Applied Mathematics. University of Twente, Faculty of Applied Mathematics, 1991.

22. Kifer, M., Lausen, G., and Wu, J. Logical foundations of object-oriented and frame-based languages. J. ACM 42, 4 (1995), 741–843.

23. Kowalski, R.A. Predicate logic as programming language. En Proceedings of the 6^th IFIP Congress on Information Processing, 1974, 569–574.

24. Krizhevsky, A., Sutskever, I. and Hinton, G.E. ImageNet classification with deep convolutional neural networks. En Proceedings of NIPS.

25. Lenzerini, M. Data integration: A theoretical perspective. En Proceedings of PODS ’02, 233–246.

26. Mendelzon, A.O. and Milo, T. Formal models of Web queries. En Proceedings of PODS ’97, 134–143.

27. Minsky, M. A Framework for Representing Knowledge. Technical Report, 1974, Cambridge, MA, USA.

28. Noy, N.F., Gao, Y., Jain, A., Narayanan, A., Patterson, A., and Taylor, J. Industry-scale knowledge graphs: lessons and challenges. Commun. ACM 62, 8 (Aug. 2019), 36–43.

29. Quillian, R.M. Word concepts: A theory and simulation of some basic semantic capabilities. Behavioral Science 12 (1967), 410–430.

30. Ramakrishnan, R. and Ullman, J.D. A survey of deductive database systems. J. Log. Program. 23, 2 (1995), 125–149.

31. B. Raphael, B. SIR: A Computer Program for Semantic Information Retrieval. Technical Report, 1964, Cambridge, MA, USA.

32. Richens, R.H. Preprogramming for mechanical translation. Mechanical Translation 3, 1 (1956), 20–25.

33. Robinson, J.A. A machine-oriented logic based on the resolution principle. J. ACM 12, 1 (1965), 23–41.

34. Shapiro, S.C. 1971. A net structure for semantic information storage, deduction and retrieval. En Proceedings of the 2^nd Intern. Joint Conf. Artificial Intelligence. (London, U.K., Sept. 1–3, 1971), 512–523.

35. Sheth, A.P. and Larson, J.A. Federated database systems for managing distributed, heterogeneous, and autonomous databases. ACM Comput. Surv. 22, 3 (Sept. 1990), 183–236.

36. Sowa, J.F. Conceptual graphs for a data base Iinterface. IBM J. Research and Development 20, 4 (1976), 336–357.

37. Tsur, S. and Zaniolo, C. LDL: A logic-based data language. En Proceedings of the 12^th Intern. Conf. on Very Large Data Bases, 1986, 33–41.

38. Uschold, M. and Gruninger, M. Ontologies: Principles, methods and applications. Knowledge Eng. Review 11, 2 (1996), 93–136.

39. Wiederhold, G. Mediation in information systems. ACM Comput. Surv. 27, 2 (June 1995), 265–267.

40. Woods, W. What’s in a link: Foundations for semantic networks. 76 (Nov. 1975); https://doi.org/10.1016/B978-1-4832-1446-7.50014-5.

Authors

Claudio Gutierrez (cgutierr@dcc.uchile.cl) is a professor at the DCC, Universidad de Chile and IMFD.

Juan F. Sequeda (juan@data.world) is a principal scientist at data.world, Austin, TX, USA.

Copyright held by authors/owners. Publication rights licensed to ACM.
Request permission to publish from permissions@acm.org

No entries found