Una revisión del campo de la web semántica | Febrero 2021

Por Pascal Hitzler

Comunicaciones de la ACM,
Febrero de 2021,
Vol. 64 No. 2, páginas 76-83
10.1145 / 3397512
Comentarios

círculos conectados de texto, ilustración — Crédito: Andrij Borys Associates, Shutterstock

Comencemos esta revisión definiendo el tema. El termino Web semántica como se usa en este artículo es un campo de investigación más que un artefacto concreto; de una manera similar, digamos, Inteligencia artificial denota un campo de investigación más que un artefacto concreto. Un artefacto concreto, que puede merecer ser llamado «La Web Semántica» puede o no llegar a existir algún día, y de hecho algunos miembros del campo de investigación pueden argumentar que parte de él ya ha sido construido. A veces el término Tecnologías de web semántica se utiliza para describir el conjunto de métodos y herramientas que surgen del campo en un intento por evitar confusiones terminológicas. Volveremos a todo esto en el artículo de alguna manera; sin embargo, el enfoque aquí es revisar el campo de investigación.

Esta revisión será bastante subjetiva, ya que el campo es muy diverso, no solo en los métodos y objetivos que se investigan y aplican, sino también porque el campo alberga un gran número de subcomunidades diferentes pero interconectadas, cada una de las cuales probablemente produciría una evolución bastante diferente. narrativa de la historia y el estado actual del arte del campo. Por lo tanto, no me esfuerzo por lograr la tarea imposible de presentar algo cercano a un consenso; tal cosa todavía parece difícil de alcanzar. Sin embargo, sí señalo aquí, y a veces dentro de la narrativa, que hay un buen número de perspectivas alternativas.

La revisión también es muy selectiva, porque la Web Semántica es un campo rico de diversas investigaciones y aplicaciones, que se toma prestado de muchas disciplinas dentro o adyacentes a la informática. En una revisión breve como ésta, no es posible ser exhaustivo ni dar el debido crédito a todas las contribuciones individuales importantes. Espero haber captado lo que muchos considerarían áreas clave del campo de la Web Semántica. Para el lector interesado en obtener una descripción más detallada, recomiendo leer detenidamente los principales medios de publicación en el campo: Web semántica diario,^un la Revista de semántica web,^segundo y las actas de la Conferencia Internacional de Web Semántica anual.^C Esta no es de ninguna manera una lista exhaustiva, pero creo que no es controvertido que estos sean los lugares de publicación más importantes para el campo.

Ahora que entendemos que la Web Semántica es un campo de investigación, ¿de qué se trata? Las respuestas a esta pregunta son nuevamente necesariamente subjetivas, ya que no existe un consenso claro al respecto en el campo.^re

Una perspectiva es que el campo tiene que ver con el objetivo a largo plazo de crear la Web Semántica (como un artefacto) junto con todas las herramientas y métodos necesarios para la creación, el mantenimiento y la aplicación. En esta narrativa en particular, la Web Semántica generalmente se concibe como una mejora de la World Wide Web actual con información comprensible por máquina (a diferencia de la mayor parte de la Web actual, que está principalmente dirigida al consumo humano), junto con servicios: agentes inteligentes. —Utilizando esta información. Esta perspectiva se remonta a un 2001 Científico americano artículo,¹ que posiblemente marca el nacimiento del campo. La provisión de información comprensible para la máquina en este caso se realiza dotando a los datos de metadatos expresivos para los datos. En la Web Semántica, estos metadatos se encuentran generalmente en forma de ontologías, o al menos un lenguaje formal con una semántica basada en la lógica que admite razonamientos sobre el significado de los datos. (Los metadatos formales se discuten más adelante). Esto, junto con el entendimiento de que los agentes inteligentes utilizarían la información, percibe que el campo de la Web Semántica tiene una superposición significativa con el campo de la Inteligencia Artificial. De hecho, para la mayoría de las principales conferencias sobre inteligencia artificial celebradas en los últimos 20 años se realizaron pistas explícitas de «Web semántica».

Una perspectiva alternativa y quizás más reciente sobre la cuestión de qué se trata el campo se basa en la observación de que los métodos y herramientas desarrollados por el campo tienen aplicaciones no vinculadas a la World Wide Web, y que también pueden proporcionar valor agregado incluso sin tener que hacerlo. Establecer agentes inteligentes que utilicen datos comprensibles para la máquina. De hecho, el interés inicial de la industria en el campo, que fue sustancial desde el principio, estuvo dirigido a aplicar tecnologías de Web Semántica a la integración y gestión de la información. Desde esta perspectiva, se podría argumentar que el campo se trata de establecer métodos y herramientas eficientes (es decir, de bajo costo) para compartir, descubrir, integrar y reutilizar datos, y la World Wide Web puede o no ser un vehículo de transmisión de datos en este ámbito. contexto. Esta comprensión del campo lo acerca a las bases de datos, o la parte de administración de datos de la ciencia de datos.

Se puede hacer una delimitación mucho más restrictiva, pero quizás prácticamente bastante astuta, del campo caracterizándolo como la investigación de fundamentos y aplicaciones de ontologías, datos vinculados y gráficos de conocimiento (todos discutidos más adelante), con los estándares del W3C.^mi RDF, OWL y SPARQL en su núcleo.

Quizás, cada una de estas tres perspectivas tiene mérito, y el campo existe en una confluencia de estas, con ontologías, datos vinculados, gráficos de conocimiento, que son conceptos clave para el campo, estándares W3C en torno a RDF, OWL y SPARQL que constituyen formatos de intercambio técnico que unificar el campo en un nivel sintáctico (y hasta cierto punto semántico); el propósito de la aplicación del campo es establecer métodos eficientes para compartir, descubrir, integrar y reutilizar datos (ya sea para la Web o no); y una visión a largo plazo que sirve como motor es el establecimiento de La Web Semántica como un artefacto completo con aplicaciones de agentes inteligentes en algún momento del futuro (quizás lejano).

En el resto de este artículo, presentaré una línea de tiempo de la historia del campo, cubriendo conceptos clave, estándares y resultados destacados. También discutiré algunas áreas de aplicación seleccionadas, así como el camino y los desafíos que se avecinan.

Volver arriba

Una línea de tiempo subjetiva

Declarar cualquier punto específico en el tiempo como el nacimiento de un campo de investigación es, por supuesto, discutible en el mejor de los casos. Sin embargo, un 2001 Científico americano artículo de Berners-Lee et al.¹ es un hito temprano y ha proporcionado una visibilidad significativa para el campo naciente. Y, sí, fue a principios de la década de 2000 cuando el campo estaba en un auge inicial muy sustancial en términos de tamaño de la comunidad, productividad académica e interés inicial de la industria.

Pero hubo esfuerzos anteriores. El programa DARPA Agent Markup Language (DAML)^F funcionó de 2000 a 2006 con el objetivo declarado de desarrollar un lenguaje de Web Semántica y las herramientas correspondientes. El proyecto On-To-Knowledge, financiado por la Unión Europea,^gramo que se ejecutó entre 2000 y 2002, dio lugar al lenguaje OIL que más tarde se fusionó con DAML, y finalmente dio lugar al estándar W3C de Web Ontology Language (OWL). La idea más general de dotar a los datos de la Web de metadatos legibles por máquina o «comprensibles» se remonta a los inicios de la propia World Wide Web. Por ejemplo, ya en 1997 se publicó un primer borrador del Marco de descripción de recursos (RDF).^h

Nuestra historia del campo comenzará a principios de la década de 2000, y agrupamos la narrativa en tres fases superpuestas, cada una impulsada por un concepto clave; es decir, bajo esta reconstrucción, el campo ha cambiado su enfoque principal al menos dos veces. Desde esta perspectiva, la primera fase fue impulsada por ontologías y abarca desde principios hasta mediados de la década de 2000; la segunda fase fue impulsada por datos enlazados y se extiende hasta principios de la década de 2010. La tercera fase fue y sigue siendo impulsada por gráficos de conocimiento.

Ontologías. Durante la mayor parte de la década de 2000, el trabajo de campo tuvo la noción de ontología en su centro, que, por supuesto, tiene raíces mucho más antiguas. Según una fuente muy citada de 1993,⁵ una ontología es una especificación formal y explícita de una conceptualización compartida, aunque se puede argumentar que esta definición todavía necesita interpretación y es bastante genérica. En un sentido más preciso (y quizás un poco post-hoc), una ontología es realmente una base de conocimiento (en el sentido de inteligencia artificial simbólica) de conceptos (es decir, tipos o clases, como «mamífero» y «nacido vivo «) y sus relaciones (como» los mamíferos dan a luz vivos «), especificadas en un lenguaje de representación del conocimiento basado en una lógica formal. En un contexto de Web Semántica, las ontologías son un vehículo principal para la integración, el intercambio y el descubrimiento de datos, y una idea impulsora es que las ontologías mismas deberían ser reutilizables por otros.

En 2004, Web Ontology Language OWL se convirtió en un estándar W3C (la revisión OWL 2¹¹ se estableció en 2012), proporcionando más combustible para el campo. OWL en su núcleo se basa en un descripción lógica, es decir, en un sublenguaje de lógica de predicados de primer orden^yo utilizando únicamente predicados unarios y binarios y un uso restringido de cuantificadores, diseñados de tal manera que el razonamiento lógico deductivo sobre el lenguaje es decidible.¹² Incluso después de que se estableció el estándar, la comunidad continuó discutiendo si las lógicas descriptivas eran la mejor opción de paradigma, siendo los lenguajes basados en reglas un competidor importante.²⁸ La discusión finalmente se resolvió, pero el formato de intercambio de reglas RIF,²⁵ que más tarde se estableció como un estándar W3C basado en reglas, ganó relativamente poca tracción.^j

También en 2004, el Marco de descripción de recursos (RDF) se convirtió en un estándar W3C (la revisión RDF 1.1³² se completó en 2014). En esencia, RDF es una sintaxis para expresar gráficos dirigidos, etiquetados y tipificados.^k RDF es más o menos^l compatible con OWL, usando OWL para especificar una ontología de tipos y sus relaciones, y luego usando estos tipos como tipos en el gráfico RDF y las relaciones como bordes. Desde esta perspectiva, una ontología OWL puede servir como esquema (o una lógica de tipos) para el gráfico RDF (escrito).^metro

Un estándar W3C para un lenguaje de consulta RDF, llamado SPARQL, siguió en 2008 (con una actualización en 2013,³⁶ que luego también se volvió más totalmente compatible con OWL). Se han desarrollado, o se están desarrollando, estándares adicionales en las cercanías de RDF, OWL y SPARQL, algunos de los cuales han ganado una tracción significativa, por ejemplo, ontologías como la ontología Semantic Sensor Networks⁷ o la ontología de procedencia,²⁰ o el Sistema de Organización de Conocimiento Simple SKOS.²⁴

Con todos estos estándares clave desarrollados bajo el W3C, se ha mantenido la compatibilidad básica entre ellos y otros estándares clave del W3C. Por ejemplo, XML sirve como formato de serialización e intercambio sintáctico para RDF y OWL. Todos los estándares de Web Semántica del W3C también usan IRI como identificadores para etiquetas en un gráfico RDF, para nombres de clases OWL, para identificadores de tipos de datos, entre otros.

En un contexto de Web Semántica, las ontologías son un vehículo principal para la integración, el intercambio y el descubrimiento de datos, y una idea impulsora es que las ontologías mismas deberían ser reutilizables por otros.

El programa DARPA DAML finalizó en 2006, y posteriormente hubo pocas o ninguna línea de financiación a gran escala para la investigación fundamental de la Web Semántica en los EE. UU.Como consecuencia, gran parte de la investigación correspondiente en los EE. UU. Se trasladó a áreas de aplicación como la gestión de datos en salud o defensa, o en campos adyacentes en conjunto. Por el contrario, los Programas Marco de la Unión Europea, en particular el 6º PM (2002-2006) y el 7º PM (2007-2013), proporcionaron una financiación significativa para la investigación en Web Semántica tanto fundacional como orientada a aplicaciones. Uno de los resultados de esta divergencia en las prioridades de financiación todavía se refleja en la composición de la comunidad de investigación de la Web Semántica, que es predominantemente europea. El tamaño de la comunidad es difícil de evaluar, pero desde mediados de la década de 2000, la conferencia clave del campo, la Conferencia Internacional de Web Semántica, ha atraído a más de 600 participantes en promedio cada año.^norte Dada la naturaleza interdisciplinaria y las diversas aplicaciones del campo, cabe señalar que gran parte de las investigaciones o aplicaciones de la Web Semántica se publican en lugares de investigación o campos de aplicación adyacentes.

El interés de la industria ha sido significativo desde el principio, pero es casi imposible reconstruir datos confiables sobre el nivel preciso de la actividad industrial relacionada. Las empresas derivadas de la universidad aplicaron investigaciones de vanguardia desde el principio y se graduaron de Ph.D. los estudiantes, en particular, el número significativo producido en Europa, estaban encontrando trabajos correspondientes en la industria. Empresas grandes y más pequeñas han estado involucradas en proyectos de investigación fundacional o aplicada a gran escala, en particular bajo el EU FP 6 y 7. El interés de la industria ha cambiado de enfoque con la comunidad investigadora, y volveremos a esto a lo largo de la narrativa.

Algunas ontologías a gran escala, a menudo con raíces anteriores a la comunidad de la Web Semántica, maduraron durante este tiempo. Por ejemplo, la ontología genética³⁵ tuvo sus inicios en 1998 y ahora es un recurso muy destacado. Otro ejemplo es SNOMED CT,^o que se remonta a la década de 1960, pero ahora está completamente formalizado en OWL y se usa ampliamente para registros médicos electrónicos.³³

Como suele ocurrir en la investigación en ciencias de la computación, las expectativas exageradas iniciales sobre los grandes avances a corto plazo dieron paso, a mediados de la década de 2000, a una perspectiva más sobria. Las ontologías en la forma que se desarrollaron principalmente durante este tiempo, es decir, a menudo basadas en modelos ad-hoc, ya que se investigaron metodologías para su desarrollo pero que aún no habían dado lugar a resultados tangibles, resultaron ser difíciles de mantener y reutilizar. Esto, combinado con el considerable costo inicial en ese momento para desarrollar buenas ontologías,^pags allanó el camino para un cambio en la atención de la comunidad de investigadores, lo que puede entenderse como tal vez la antítesis del enfoque fuertemente basado en la ontología de principios de la década de 2000.

Datos vinculados. El año 2006 vio el nacimiento de los «datos vinculados» (o «datos abiertos vinculados» si el énfasis está en la disponibilidad pública y abierta bajo licencias gratuitas). Datos vinculados³ pronto se convertiría en un motor importante para la investigación y las aplicaciones de la Web Semántica y persistiría como tal hasta principios de la década de 2010.

Lo que generalmente se asocia con el término «datos vinculados» es que los datos vinculados consisten en un conjunto (ahora bastante grande) de gráficos RDF que están vinculados en el sentido de que muchos identificadores IRI en los gráficos también aparecen en otros, a veces múltiples, gráficos. En cierto sentido, la colección de todos estos gráficos RDF vinculados puede entenderse como un gráfico RDF muy grande.

El número de gráficos RDF vinculados disponibles públicamente ha mostrado un crecimiento significativo, en particular durante la primera década, como se muestra en la Figura 1; los datos son del sitio web de Linked Open Data Cloud,^q que no tiene en cuenta todos los conjuntos de datos RDF en la Web. Un artículo de 2015²⁹ informa sobre «más de 37 mil millones de triples^r de más de 650.000 documentos de datos «, que también es solo una selección de todos los triples de gráficos RDF a los que se puede acceder libremente en la World Wide Web. Los grandes proveedores de datos, por ejemplo, a menudo solo proporcionan una interfaz de consulta basada en SPARQL (un» punto final SPARQL «) o usar RDF para la organización de datos internos, pero proporcionarlos al exterior solo a través de páginas web legibles por humanos. Los conjuntos de datos en la Nube de datos abiertos enlazados cubren una amplia variedad de temas, que incluyen geografía, gobierno, ciencias de la vida, lingüística, medios, ciencia publicaciones y redes sociales.

Figura 1. Número de gráficos RDF en Linked Open Data Cloud a lo largo del tiempo.

Uno de los conjuntos de datos vinculados más conocidos y utilizados es DBpedia,²² que es un conjunto de datos vinculado extraído de Wikipedia (y, más recientemente, también Wikidata). La versión de abril de 2016^s cubre alrededor de seis millones de entidades y alrededor de 9.500 millones de RDF triplica. Debido a su amplia cobertura de temas (esencialmente, todo en Wikipedia) y al hecho de que fue uno de los primeros conjuntos de datos vinculados disponibles, DBpedia desempeña un papel central en la Nube de datos abiertos vinculados de conjuntos de datos interconectados: muchos otros conjuntos de datos se vinculan a para que se convierta en una especie de centro de datos enlazados.

Hubo un gran interés de la industria en los datos vinculados desde el principio. Por ejemplo, BBC^t fue uno de los primeros contribuyentes importantes de la industria a Linked Data Cloud y New York Times Company³¹ y facebook⁴⁰ fueron los primeros en adoptar. Sin embargo, el interés de la industria parecía estar principalmente en la utilización de datos vinculados tecnología para la integración y gestión de datos, a menudo sin que estén visibles en la World Wide Web abierta.

Durante la era de los datos vinculados, las ontologías desempeñaron un papel mucho menos destacado. A menudo se usaban como esquemas en el sentido de que informaban la estructura interna de los conjuntos de datos RDF, sin embargo, la información en los gráficos RDF en la Nube de datos vinculados era superficial y relativamente simplista en comparación con las promesas excesivas y la profundidad de la investigación de la era de las ontologías. El credo que se expresó a veces durante este tiempo fue que las ontologías no se pueden reutilizar y que un enfoque mucho más simple basado principalmente en la utilización de RDF y enlaces entre conjuntos de datos ofrecía promesas mucho más realistas para la integración, administración y aplicaciones de datos dentro y fuera de la Web. También fue durante este tiempo que los vocabularios de organización de datos basados en RDF con poca relación con las ontologías, como SKOS,²⁴ fueron desarrollados.

También fue durante esta época (2011) cuando apareció en escena schema.org.⁶ Inicialmente impulsado por Bing, Google y Yahoo, y poco después se unió a Yandex, Schema.org hizo pública una ontología relativamente simple.^tu y sugirió que los proveedores de sitios web anoten (es decir, vinculen) entidades en sus sitios con el vocabulario de schema.org. A cambio, los proveedores de motores de búsqueda web detrás de schema.org prometieron mejorar los resultados de búsqueda utilizando las anotaciones como metadatos. Schema.org registró una aceptación inicial considerable: en 2015, Guha et al.⁶ informó que más del 30% de las páginas tienen anotaciones de schema.org.

Otro esfuerzo destacado lanzado en 2012 es Wikidata,³⁹ que comenzó como un proyecto en Wikimedia Deutschland financiado entre otros por Google, Yandex y el Allen Institute for AI. Wikidata se basa en una idea similar a Wikipedia, es decir, para obtener información mediante crowdsourcing. Sin embargo, mientras Wikipedia proporciona textos de estilo enciclopedia (con lectores humanos como los principales consumidores), Wikidata se trata de crear datos estructurados que pueden ser utilizados por programas o en otros proyectos. Por ejemplo, muchos otros esfuerzos de medios de wiki, incluida Wikipedia, utilizan Wikidata para proporcionar parte de la información que presentan a los lectores humanos. En el momento de escribir este artículo, Wikidata tiene más de 66 millones de elementos de datos, ha tenido más de mil millones de ediciones desde el lanzamiento del proyecto y tiene más de 20.000 usuarios activos.^v Las descargas de bases de datos están disponibles en varios estándares W3C, incluido RDF.

A principios de la década de 2010, la exageración inicial sobre los datos vinculados comenzó a dar paso a una perspectiva más sobria. Si bien hubo algunos usos y aplicaciones destacados de los datos vinculados, resultó que integrarlos y utilizarlos requirió más esfuerzo del que algunos inicialmente esperaban. Podría decirse que los esquemas poco profundos y no expresivos que se utilizan a menudo para datos vinculados parecen ser un obstáculo importante para la reutilización,^dieciséis y las esperanzas iniciales de que las interconexiones entre conjuntos de datos pudieran explicar de alguna manera esta debilidad no parecieron materializarse realmente. Esta observación no debe entenderse como degradante de los avances significativos que los datos vinculados han aportado al campo y sus aplicaciones: el solo hecho de tener datos disponibles en algún formato estructurado que siga un estándar destacado significa que se puede acceder a ellos, integrarlos y seleccionarlos con las herramientas disponibles, y luego hizo uso de ellos, y esto es mucho más fácil que si los datos se proporcionan en una forma sintáctica y conceptualmente mucho más heterogénea. Pero la búsqueda de enfoques más eficientes para el intercambio de datos, el descubrimiento, la integración y la reutilización fue, por supuesto, tan importante como siempre, y está comenzando.

Gráficos de conocimiento. En 2012, apareció un nuevo término cuando Google lanzó su Gráfico de conocimiento. Se pueden ver partes del Gráfico de conocimiento de Google, por ejemplo, buscando entidades destacadas en google.com: junto a los resultados de búsqueda que enlazan con páginas web, se muestra un cuadro de información que muestra información del Gráfico de conocimiento de Google. En la Figura 2 se muestra un ejemplo de un cuadro de información de este tipo; se recuperó al buscar el término Kofi Annan. Se puede navegar desde este nodo a otros nodos en el gráfico siguiendo uno de los hipervínculos activos, por ejemplo, a Nane Maria Annan, que aparece en la lista con una relación de cónyuge con el nodo Kofi Annan. Después de seguir este enlace, se muestra un nuevo cuadro de información para Nane Maria Annan junto a los resultados de búsqueda habituales para el mismo término.

Figura 2. Nodo de Gráfico de conocimiento de Google como se muestra después de buscar en google.com el término «Kofi Annan».

Si bien Google no proporciona el Gráfico de conocimiento para descargar, sí proporciona una API para acceder al contenido.^w: La API utiliza tipos estándar de schema.org y cumple con JSON-LD,³⁴ que es esencialmente una sintaxis alternativa para RDF estandarizada por el W3C.

La tecnología de gráficos de conocimiento ha encontrado un lugar destacado en la industria, incluidas las principales empresas de tecnología de la información además de Google, como Microsoft, IBM, Facebook y eBay.²⁷ Sin embargo, dada la historia de las tecnologías de la Web Semántica, y en particular de los datos vinculados y las ontologías discutidas anteriormente, parece que el gráfico de conocimiento es principalmente un nuevo marco de ideas que provienen directamente del campo de la Web Semántica.^X con algunos cambios notables en el énfasis.

Una de las diferencias es la apertura: como el término Linked Abierto Los datos han sugerido desde el principio que los esfuerzos de datos vinculados de la comunidad de Web Semántica tenían en su mayoría el intercambio abierto de datos para su reutilización como uno de sus objetivos, lo que significa que los datos vinculados están disponibles en su mayoría de forma gratuita para su descarga o por el punto final SPARQL, y el uso de licencias no restrictivas se considera de importancia en la comunidad. Wikidata como gráfico de conocimiento tampoco tiene dueño y es abierto. Por el contrario, las actividades más recientes en torno a los gráficos de conocimiento suelen estar dirigidas por la industria y las principales vitrinas no son realmente abiertas en este sentido.²⁷

Otra diferencia es la del control central frente a las contribuciones de la comunidad de abajo hacia arriba: la Nube de datos vinculados es, en cierto sentido, el gráfico de conocimiento existente más grande que se conoce, pero difícilmente es una entidad concisa. Más bien, consiste en subgrafos individuales débilmente interrelacionados, cada uno de los cuales se rige por su propia estructura, esquema de representación, etc. Los gráficos de conocimiento, por el contrario, suelen entenderse como artefactos mucho más coherentes internamente y más estrictamente controlados. Como consecuencia, se pone en duda el valor de los enlaces externos, es decir, a los gráficos externos sin un estricto control de calidad,^y mientras que la calidad del contenido y / o el esquema subyacente se enfocan más.

La mayor diferencia es probablemente la transición de la investigación académica (que impulsó principalmente el esfuerzo de datos vinculados) al uso en la industria. Como tal, las actividades recientes en torno a los gráficos de conocimiento están impulsadas por los fuertes casos de uso industrial y su valor agregado demostrado o percibido, a pesar de que, hasta donde yo sé, no existe una evaluación formal publicada de sus beneficios.

Sin embargo, muchos de los desafíos y problemas relacionados con los gráficos de conocimiento siguen siendo los mismos que para los datos vinculados; por ejemplo, todos los elementos de la lista de desafíos actuales enumerados en Noy et al.²⁷ son muy conocidos en el campo de la Web Semántica, muchos de los cuales han realizado importantes investigaciones.

Volver arriba

Relaciones seleccionadas con otros campos y disciplinas

Como comentamos, el campo de la Web Semántica no se rige principalmente por ciertos métodos inherentes al campo, lo que lo distingue de otras áreas como el aprendizaje automático. Más bien, está impulsado por una visión compartida,^z y como tal toma prestado de otras disciplinas según sea necesario.^{Automóvil club británico}

Por ejemplo, el campo de la Web Semántica tiene fuertes relaciones con la representación del conocimiento y el razonamiento como una subdisciplina de la inteligencia artificial, ya que los lenguajes de representación de ontologías y gráficos de conocimiento pueden entenderse (y están estrechamente relacionados con) los lenguajes de representación del conocimiento, con lógicas de descripción, como las lógicas que sustentan el Web Ontology Language OWL, desempeñando un papel central. Los requisitos de las aplicaciones web semánticas también han impulsado o inspirado la investigación de la lógica descriptiva, así como las investigaciones sobre el puente entre diferentes enfoques de representación del conocimiento, como las reglas y las lógicas descriptivas.¹⁹

El campo de las bases de datos está claramente relacionado, donde temas como la gestión de (meta) datos y los datos estructurados en gráficos tienen un hogar natural pero también son de importancia para el campo de la Web Semántica. Sin embargo, el énfasis en la investigación de la Web Semántica se centra fuertemente en la integración conceptual de fuentes heterogéneas; por ejemplo, cómo superar diferentes formas de organizar los datos; en la terminología de Big Data, el énfasis de la Web Semántica está principalmente en el aspecto de variedad de los datos.¹⁷

El procesamiento del lenguaje natural como herramienta de aplicación juega un papel importante, por ejemplo, para la integración de ontologías y gráficos de conocimiento, para la respuesta a consultas en lenguaje natural, así como para la construcción automatizada de ontologías o gráficos de conocimientos a partir de textos.

Se está investigando el aprendizaje automático, y en particular el aprendizaje profundo, en cuanto a su capacidad para mejorar las tareas difíciles que llegan a un contexto de Web Semántica, como la finalización de gráficos de conocimiento (en el sentido de agregar relaciones faltantes), el manejo de datos ruidosos, etc. .^4,10 Al mismo tiempo, se están investigando las tecnologías de la Web Semántica en cuanto a su potencial para promover una IA explicable.^10,21

Se están investigando algunos aspectos de los sistemas ciberfísicos y la Internet de las cosas sobre el uso de tecnologías de Web Semántica, por ejemplo, en el contexto de la fabricación inteligente (Industria 4.0), las redes de energía inteligente y la gestión de edificios.³⁰

Algunas áreas de las ciencias de la vida ya tienen un historial considerable de beneficiarse de las tecnologías de la Web Semántica, por ejemplo, SNOMED-CT y Gene Ontology. En términos generales, los campos biomédicos fueron los primeros en adoptar los conceptos de la Web Semántica. Otro ejemplo destacado sería el desarrollo de la ICD11, que fue impulsado por tecnologías de Web Semántica.³⁸

Se pueden encontrar otras áreas de aplicación actuales o potenciales para las tecnologías de la Web Semántica siempre que sea necesario compartir, descubrir, integrar y reutilizar datos, por ejemplo, en geociencias o en humanidades digitales.¹⁵

Volver arriba

Algo del camino por delante

Sin lugar a dudas, el gran objetivo del campo de la Web Semántica, ya sea la creación de la Web Semántica como un artefacto o la provisión de soluciones para el intercambio, el descubrimiento, la integración y la reutilización de datos, que lo hacen completamente fácil e indoloro, aún no se ha logrado. . Esto no significa que los resultados intermedios no sean de uso práctico o incluso de valor industrial, como demuestran las discusiones sobre los gráficos de conocimiento, schema.org y las ontologías de las ciencias de la vida.

Sin embargo, para avanzar hacia los objetivos más amplios, se requieren más avances en prácticamente todos los subcampos de la Web Semántica. Para muchos de ellos, se pueden encontrar discusiones sobre algunos de los desafíos más urgentes, por ejemplo, en Bernstein et al.² en las contribuciones al número especial de enero de 2020 de la Web semántica diario^ab o en Noy et al.²⁷ para gráficos de conocimiento industrial, en Thieblin et al.³⁷ para la alineación ontológica, en Martinez-Rodriguez et al.²³ para la extracción de información, en Höffner et al.¹³ para responder preguntas, o en Hammer et al.⁹ para patrones de diseño de ontologías y más. En lugar de repetir o recompilar estas listas, centrémonos en el desafío que personalmente considero el principal obstáculo actual, a corto plazo, para el campo en general.

Existe una gran cantidad de conocimiento, duro y blando, en la comunidad de Web Semántica y sus comunidades de aplicaciones sobre cómo abordar los problemas relacionados con la gestión eficiente de datos. Sin embargo, los nuevos adoptantes a menudo se enfrentan a una cacofonía de voces que proponen diferentes enfoques, poca orientación sobre los pros y los contras de estos diferentes enfoques, y una bolsa de herramientas que van desde prototipos de investigación toscos y no aptos para la práctica hasta bien diseñados. software para subproblemas particulares, pero nuevamente con poca orientación sobre qué herramientas y qué enfoques los ayudarán mejor a lograr sus objetivos particulares.

Por lo tanto, lo que más necesita el campo de la Web Semántica, en esta etapa, es la consolidación. Y como un campo inherentemente impulsado por aplicaciones, esta consolidación tendrá que ocurrir en todos sus subcampos, lo que resultará en procesos orientados a aplicaciones que estén bien documentados en cuanto a sus objetivos, pros y contras, y que vayan acompañados de procesos fáciles de realizar. uso y herramientas bien integradas que respalden todo el proceso. Por ejemplo, algunos de los softwares destacados y populares disponibles, como el editor de ontologías Protégé,²⁶ la API OWL,¹⁴ Wikibase, que es el motor subyacente de Wikidata,^C.A o el razonador ELK,¹⁸ son poderosos y extremadamente útiles, pero no funcionan fácilmente entre sí en algunos casos, a pesar de que todos usan RDF y OWL para serializaciones.

¿Quiénes podrían ser los impulsores de tal consolidación? Para los académicos, a menudo existe un incentivo limitado para desarrollar y mantener un software estable y fácil de usar, ya que el crédito académico, medido principalmente en publicaciones y en la suma del financiamiento externo adquirido, a menudo no se alinea bien con estas actividades. Asimismo, los procesos complejos son intrínsecamente difíciles de evaluar, lo que significa que las opciones de publicación de primer nivel para este tipo de trabajos son limitadas. Escribir libros de texto introductorios de alta calidad como medio para consolidar un campo requiere mucho tiempo y devuelve muy poco crédito académico. Sin embargo, la comunidad académica proporciona una base para la consolidación, desarrollando soluciones que unen paradigmas y asociándose con áreas de aplicación para desarrollar y materializar casos de uso.

Ya se está produciendo una especie de consolidación en la industria, como lo demuestra la adopción de tecnologías de Web Semántica en empresas emergentes y multinacionales. Detalles técnicos, ni siquiera de software interno, que subyacen a esta adopción, por ejemplo, como en el caso de los gráficos de conocimiento industrial discutidos en Noy et al.,²⁷ sin embargo, generalmente no se comparten, presumiblemente para proteger la propia ventaja competitiva. Si este es realmente el caso, es posible que solo sea cuestión de tiempo antes de que las soluciones de software correspondientes estén más disponibles.

Volver arriba

Conclusión

En sus primeros 20 años aproximadamente de existencia, el campo de la Web Semántica ha producido una gran cantidad de conocimientos sobre la gestión eficiente de datos para compartir, descubrir, integrar y reutilizar datos. Las contribuciones del campo se entienden mejor por medio de las aplicaciones que han dado lugar, incluyendo Schema.org, gráficos de conocimiento industrial, Wikidata, aplicaciones de modelado de ontologías, entre otros campos discutidos a lo largo de este artículo.

También es natural preguntar sobre los descubrimientos científicos clave que han proporcionado las bases para estas aplicaciones; sin embargo, esta pregunta es mucho más difícil de responder. What I hope has become clear from the narrative, advances in the pursuit of the Semantic Web theme require contributions from many computer science subfields, and one of the key quests is about finding out how to piece together contributions, or modifications thereof, in order to provide applicable solutions. In this sense, the applications (including those mentioned herein) showcase the major scientific progress of the field as a whole.

Of course, many of the contributing fields have individually made major advances in the past 20 years, and sometimes central individual publications have decisively shaped the narrative of a subfield. Reporting in more detail on such advances would be a worthwhile endeavor but constitute a separate piece in its own right. The interested reader is encouraged to follow up on the references given, which in turn will point to the key individual technological contributions that lead to the existing widely used standards, the landmark applications reported herein, and the current discussion on open technical issues in the field to which references have been included.

The field is seeing mainstream industrial adoption, as laid out in the narrative. However, the quest for more efficient data management solutions is far from over and continues to be a driver for the field.

Acknowledgment. This work was supported by the National Science Foundation under award OIA-2033521.

Figure. Watch the author discuss this work in the exclusive Communications video. https://cacm.acm.org/videos/semantic-web

References

1. Berners-Lee, T., Hendler, J., and Lassila, O. The Semantic Web. Scientific American 284, 5 (May 2001), 34–43.

2. Bernstein, A., Hendler, J., and Noy, N. A new look at the Semantic Web. Commun. ACM 59, 9 (Sept. 2016), 35–37.

3. Bizer, C., Heath, T., and Berners-Lee, T. Linked Data—The story so far. Int. J. Semantic Web Inf. Syst., 3 (2009), 1–22.

4. d’Amato, C. 2020. Machine learning for the Semantic Web: Lessons learnt and next research directions. Semantic Web 11, 1 (2020), 195–203.

5. Gruber, T. A translation approach to portable ontology specifications. Knowledge Acquisition 5, 2 (1993), 199–220.

6. Guha, R., Brickley, D., and Macbeth, S. 2016. Schema.org: evolution of structured data on the web. Commun. ACM 59, 2 (2016), 44–51. https://doi.org/10.1145/2844544

7. Haller, A., Janowicz, K., Cox, S., Phuoc, D., Taylor, K., and Lefrancois, M (Eds.). 2017. Semantic Sensor Network Ontology. W3C Recommendation 19 October 2017. Available from http://www.w3.org/TR/vocabssn/.

8. Halpin, H., Hayes, P., and Thompson, H. When owl: Same as isn’t the same redux: A preliminary theory of identity and inference on the Semantic Web. En Proceedings of Workshop on Discovering Meaning on the Go in Large Heterogeneous Data. (Barcelona, Spain, July 16, 2011), 25–30.

9. Hammar, K. et al. Collected research questions concerning ontology design patterns. Ontology Engineering with Ontology Design Patterns—Foundations and Applications. P. Hitzler, A. Gangemi, K. Janowicz, A. Krisnadhi, and V. Presutti (Eds.). Studies on the Semantic Web 25. IOS Press, 2016, 189–198.

10. Hitzler, P., Bianchi, F., Ebrahimi, M., and Sarker, M. Neural-symbolic integration and the Semantic Web. Semantic Web 11, 1 (2020), 3–11.

11. Hitzler, P., Krötzsch, M., Parsia, B., Patel-Schneider, P., and Rudolph, S. (Eds.). OWL 2 Web Ontology Language: Primer (2^nd Ed.). W3C Recommendation 11 (Dec. 2012); http://www.w3.org/TR/owl2-primer/.

12. Hitzler, P., Krötzsch, M., and Rudolph, S. Foundations of Semantic Web Technologies. Chapman & Hall/CRC, 2010.

13. Höffner, K., Walter, S., Marx, E., Usbeck, R., Lehmann, J., and Ngomo, A. Survey on challenges of question answering in the Semantic Web. Semantic Web 8, 6 (2017), 895–920.

14. Horridge, M. and Bechhofer, S. The OWL API: A Java API for OWL ontologies. Semantic Web 2, 1 (2011), 11–21.

15. Hyvönen, E. Using the Semantic Web in digital humanities: Shift from data publishing to data-analysis and serendipidous knowledge discovery. Semantic Web 11, 1 (2020), 187–193.

16. Jain, P., Hitzler, P., Yeh, P., Verma, K., and Sheth, A. Linked Data Is Merely More Data. Papers from the 2010 AAAI Spring Symposium, Technical Report SS-10-07. Linked Data Meets Artificial Intelligence. (Stanford, CA, USA, Mar. 22-24, 2010). AAAI.

17. Janowicz, K., van Harmelen, F., Hendler, J., and Hitzler, P. Why the data train needs semantic rails. AI Magazine 36, 1 (2015), 5–14.

18. Kazakov, Y., Krötzsch, M., and Simancik, F. The incredible ELK—From polynomial procedures to efficient reasoning with EL ontologies. J. Autom. Reasoning 53, 1 (2014), 1–61.

19. Krisnadhi, A., Maier, F., and Hitzler, P. OWL and rules. En Proceedings of the 7^th Intern. Summer School: Reasoning Web Semantic Technologies for the Web of Data. (Galway, Ireland, Aug. 23-27, 2011). A. Polleres, C. d’Amato, M. Arenas, S. Handschuh, P. Kroner, S. Ossowski, and P.F. Patel-Schneider (Eds.). LNCS 6848. Springer, 382–415.

20. Lebo, T., Sahoo, S., and McGuinness, D. (Eds.). PROV-O: The PROV Ontology. W3C Recommendation (Apr. 30, 2013); http://www.w3.org/TR/prov-o/.

21. Lecue, F. On the role of knowlege graphs in explainable AI. Semantic Web 11, 1 (2020), 41–51.

22. Lehmann, J. et al. DBpedia—A large-scale, multilingual knowledge base extracted from Wikipedia. Semantic Web 6, 2 (2015), 167–195.

23. Martinez-Rodriguez, J., Hogan, A., and Lopez-Arevalo, I. Information extraction meets the Semantic Web: A Survey. Semantic Web 11, 2 (2020), 255–335.

24. Miles, A. and Bechhofer, S. (Eds.). SKOS Simple Knowledge Organization System. W3C Recommendation (Aug. 18, 2009); http://www.w3.org/TR/skos-reference/.

25. Morgenstern, L., Welty, C., Boley, H., and Hallmark, G. (Eds.). RIF Primer (2^nd Ed.). W3C Working Group Note 5 (Feb. 2013); http://www.w3.org/TR/rif-primer/.

26. Musen, M. The Protégé project: a look back and a look forward. AI Matters 1, 4 (2015), 4–12.

27. Noy, N., Gao, Y., Jain, A., Narayanan, A., Patterson, A., and Taylor, J. Industry-scale knowledge graphs: lessons and challenges. Commun. ACM 62, 8 (Aug. 2019), 36–43.

28. Patel-Schneider, P. and Horrocks, I. Position paper: A comparison of two modelling paradigms in the Semantic Web. En Proceedings of the 15^th ACM Intern. Conf. World Wide Web, (Edinburgh, Scotland, May 23-26, 2006). L. Carr, D. De Roure, A. Iyengar, C.A. Goble, and M. Dahlin (Eds.), 3–12.

29. Rietveld, L., Beek, W., and Schlobach, S. LOD lab: Experiments at LOD scale. En Proceedings of the 14^th Intern. Semantic Web Conf. (Bethlehem, PA, USA, Oct. 11-15, 2015), M. Arenas et al. (Eds). LNCS 9367. Springer, 339–355.

30. Sabou, M., Biffl, S., Einfalt, A., Krammer, L., Kastner W., and Ekaputra, F. Semantics for cyber-physical systems: A cross-domain perspective. Semantic Web 11, 1 (2020), 115–124.

31. Sandhaus, E. Abstract: Semantic technology at the New York Times: Lessons learned and future directions. En Proceedings of the 9^th Intern. Semantic Web Conf. (Shanghai, China, Nov. 7-11, 2010). P.F. Patel-Schneider et al. (Eds.), LNCS 6497. Springer, 355.

32. Schreiber, G and Raimond, Y (Eds.). RDF 1.1 Primer. W3C Working Group Note (June 24, 2014); http://www.w3.org/TR/rdf11-primer/.

33. Schulz, S., Suntisrivaraporn, B., Baader, F., and Boeker, M. SNOMED reaching its adolescence: Ontologists’ and logicians’ health check. I. J. Medical Informatics 78, Supp. 1 (2009), S86–S94.

34. Sporny, M., Longley, D., Kellogg, G., Lanthaler, M., and Lindström, N. JSON-LD 1.0. A JSON-based Serialization for Linked Data. W3C Recommendation (Jan. 16, 2014); http://www.w3.org/TR/jsonld/.

35. The Gene Ontology Consortium. The Gene Ontology Project in 2008. Nucleic Acids Research 36 (Database issue) (2008), D440–D444.

36. The W3C SPARQL Working Group (Ed.). SPARQL 1.1 Overview. W3C Recommendation (Mar. 21, 2013); http://www.w3.org/TR/sparql11-overview.

37. Thieblin, E., Haemmerle, O., Hernandez, N., and Santos, C. Survey on complex ontology matching. Semantic Web (2020), 689–727.

38. Tudorache, T., Nyulas, C., Noy, N., and Musen, M. Using Semantic Web in ICD-11: Three years down the road. En Proceedings of the 12^th Intern. Semantic Web Conf., (Sydney, NSW, Australia, Oct. 21-25, 2013). H. Alani et al. (Eds). LNCS 8219. Springer, 195–211.

39. Vrandecic, D. and Krötzsch, M. Wikidata: A free collaborative knowledgebase. Commun. ACM 57, 10 (Oct. 2014), 78–85.

40. Weaver, J. and Tarjan, P. Facebook linked data via the graph API. Semantic Web 4, 3 (2013), 245–250.

Author

Pascal Hitzler is a professor and endowed Lloyd T. Smith Creativity in Engineering Chair and director of the Center for Artificial Intelligence and Data Science in the Department of Computer Science at Kansas State University, Manhattan, KS, USA.

Footnotes

a. http://www.semantic-web-journal.net/

b. https://www.journals.elsevier.com/journal-of-web-semantics

c. http://swsa.semanticweb.org/content/international-semantic-web-conference-iswc

d. I would like to emphasize this lack of consensus is as much a boon for the field, giving it diversity, as it is sometimes a disadvantage.

e. The World Wide Web Consortium (W3C) calls its standards «Recommendations.»

f. http://www.daml.org/

g. https://cordis.europa.eu/project/id/IST-1999-10132

h. https://www.w3.org/TR/WD-rdf-syntax-971002/

i. With some mild extensions not found in standard first-order predicate logic, such as counting quantifiers.

j. Evidence, for example, is given by comparing Google Scholar citation counts for the standards documents, which are two orders of magnitude lower for RIF.

k. The full standard is more complicated; for example, it allows things like using edge labels, or node types, also as nodes from which other edges originate, which would be in violation of what is usually considered a graph. Excessive use of such departures from standard graph structures are usually used sparingly, as the results are often hard to interpret.

l. Syntactically, they are fully compatible, as RDF is a syntactic serialization format for OWL. However, RDF and OWL each carry a (more precisely, several) formal semantics that are not fully compatible between the languages. To the best of my knowledge, there is no single reference which discusses the exact relationship in detail, but Hitzler et al.¹² gives some indications.

m. RDF Schema,³² which is part of the RDF standard, can serve this purpose as well but is much less expressive than OWL, and in terms of semantics not fully compatible with it – see the previous footnote.

norte. The much newer annual China Conference on Knowledge Graph and Semantic Computing, established in 2013, with primarily national focus, has by now grown to almost 1,500 participants.

o. https://www.snomed.org/

p. With it being rather unclear what «good» would mean.

q. https://lod-cloud.net/

r. In RDF terminology, a triple consists of a node-edge-node piece of an RDF graph.

s. https://blog.dbpedia.org/2016/10/19/yeah-we-did-it-again-new-2016-04-dbpediarelease/

t. https://www.bbc.co.uk/academy/en/articles/art20130724121658626

u. As of the writing of this article it has 614 classes and 902 relations and consists primarily of a type hierarchy.

v. https://www.wikidata.org/wiki/Wikidata:Statistics

w. https://developers.google.com/knowledge-graph

x. The term knowledge graph is of course also not new as such, it was already used, for example, in the 1980s with a similar general meaning.

y. Early indicators of this have shown for example that many of the same-as links contained in the Linked Data Cloud link entities which should not as such be considered exactly the same.⁸

z. Another discipline not primarily driven by methods, but rather by shared vision or goals is, cybersecurity.

aa. For example, see the ISWC 2006 keynote by Rudi Studer on Semantic Web: Customers and Suppliers, see http://videolectures.net/iswc06_studer_sc/.

ab. http://www.semantic-web-journal.net/issues

ac. https://wikiba.se/

Copyright held by authors/owners. Publication rights licensed to ACM.
Request permission to publish from permissions@acm.org

No entries found