+34 944 139 003
Recomendación de conjuntos de datos enlazados basada en minería de grafos
Directed by: Diego López-de-Ipiña Co-advisor: Óscar Corcho
Desde que Tim Berners-Lee presentó el concepto de Linked Open Data (“datos abiertos enlazados” en español) en el año 2006, su popularidad y adopción ha ido en aumento. Basado en el paradigma de publicación de información en la Web presentado por Berners-Lee, Hendler y Lassila, y conocido como “Web Semántica”, Linked Open Data dicta una serie de reglas para la correcta publicación de conjuntos de datos en la Web a) utilizar URI para describir objetos del mundo real, b) dichas URI serán HTTP URI para que el acceso a ellas sea posible de manera universal, c) al acceder a estas URI se mostrará información relevante a través de los estándares definidos por el World Wide Web Consortium (W3C), como las diferentes representaciones del modelo RDF o el lenguaje de consulta SPARQL y d) se incluirán enlaces hacia otros conjuntos de datos, permitiendo la obtención de nuevo conocimiento.
Más adelante, Tim Berners-Lee presentaba una escala por la cual se podría calcular la calidad de los conjuntos de datos publicados como Linked Open Data. Esta escala, compuesta por cinco niveles, otorga una estrella por cada nivel superado por el conjunto de datos:
- Los datos están disponibles en la Web (en cualquier formato) con una licencia que permita considerarlos Open Data, o datos abiertos.
- Se encuentran disponibles en un formato fácilmente procesable por máquinas (por ejemplo, un documento MS Excel en lugar de una imagen de una tabla escaneada).
- Además de encontrarse en un formato fácilmente procesable por máquinas, este formato es libre (por ejemplo, un fichero CSV (Comma-Separated Values) en lugar de un fichero MS Excel).
- Los datos han sido publicados siguiendo los estándares del W3C (RDF y SPARQL).
- Los datos están enlazados con otros datos, proveyendo contexto y enriqueciéndolos.
A raíz de la adopción del paradigma Linked Open Data por empresas y organizaciones han surgido nuevos retos dentro del proceso de publicación de datos en la Web. Uno de ellos trata sobre el último nivel de la escala: el enlazado entre diferentes conjuntos de datos. En la actualidad cuando se publica un nuevo conjunto de datos, el administrador de este conjunto de datos dispone de muy pocas pistas a la hora de seleccionar otros conjuntos de datos con los cuales enlazar el suyo propio. Es cierto que existen catálogos como The Datahub que almacenan metadatos sobre los conjuntos de datos, pero la mayoría de las veces resultan insuficientes, obligando al administrador del conjunto de datos a dedicar excesivo tiempo en la búsqueda de conjuntos de datos relacionados. Para solucionar esta problemática, en esta tesis doctoral se ha desarrollado un sistema que, analizando la estructura de los conjuntos de datos, recomienda otros conjuntos de datos candidatos a ser enlazados con una gran precisión. Para ello, se sintetiza la estructura de los grafos RDF y se aplican técnicas de minería de grafos para extraer los subgrafos más frecuentes de cada conjunto de datos. Una vez extraídos, se buscan similitudes entre estos subgrafos para establecer posibles relaciones entre los conjuntos de datos. Además, junto con esta solución, se han desarrollado una metodología para la síntesis de conjuntos de datos y un juego de ensayo para evaluar las recomendaciones de enlazado de conjuntos de datos.