A data-driven visual approach to explore Linked Open Data environments
Directed by: Diego López-de-Ipiña Co-advisor: Unai Aguilera
Los humanos han tomado registros de su entorno desde la antigüedad, tanto de forma oral, escrita como usando elementos gráficos e imágenes. Estas anotaciones nos han permitido estudiar nuestro pasado, analizando situaciones previas y extrayendo nuevo conocimiento de las mismas, lo que ha hecho que nuestras sociedades evolucionen, siendo capaces de abordar y superar nuevos desafíos.
Desde la invención de la World Wide Web por Sir Tim Berners-Lee, la facilidad para publicar, actualizar, descubrir y acceder a nuevos datos ha crecido de forma exponencial, y se estima que cada dos años generamos tanta información como en toda la historia de la humanidad hasta esa fecha. Tim Berners-Lee previó que las máquinas podrían ayudar a los humanos en las tareas de procesado e interpretación de los datos, dando lugar al área de la Web Semántica, un supuesto en el que los datos son proporcionados junto a ciertas anotaciones semánticas, que les habilitan para ser comprendidos por distintos algoritmos.
Años más tarde, en 2006, enunció los principios de los Datos Enlazados, una serie de técnicas orientadas a publicar datos de forma estructurada, de manera que estos puedan ser conectados (enlazados) con otros recursos a través de la World Wide Web. Estos principios se cimentan en los estándares web, y están diseñados para ser consumidos por computadoras.
A pesar de los beneficios de los Datos Enlazados, la adopción de estas técnicas se ha estabilizado tras el auge inicial, y son pocos los intentos de mejora que se realizan fuera de la comunidad académica. Para hacer que los usuarios de Internet sean conscientes de las ventajas de los Datos Enlazados, proponemos una estrategia de exploración de conjuntos de datos a través de los medios visuales, aprovechando la capacidad humana para detectar patrones y aumentar nuestro conocimiento mediante el uso de representaciones visuales.
A fin de gestionar la diversidad de datos estructurados publicados como Datos Enlazados, nuestra propuesta toma un enfoque basado en los propios datos, eliminando las ideas preconcebidas que puedan llevar a conclusiones erróneas. El objetivo principal de esta tesis es facilitar la exploración de datos semantizados a través de visualizaciones apropiadas, de forma que cualquier usuario sea capaz de interactuar con conjuntos de datos originales sin necesidad de conocimientos técnicos avanzados ni habilidades especiales.
A lo largo de esta disertación, explicaremos el proceso de visualización que permite tomar datos semantizados como entrada, y generar representaciones visuales como salida, junto a los módulos involucrados y las contribuciones que se han diseñado e implementado a fin de mejorar el estado de la cuestión en la visualización de Datos Enlazados.
Humans have registered their environment since ancient times, either verbally, through writing or by using graphics and images. These records have allowed us to learn from the past, analysing previous scenarios and extracting new knowledge that has transformed our societies, making us capable to address and deal with new challenges.
Since the invention of the World Wide Web by Sir Tim Berners-Lee, the ease to publish, update, discover and access new data has grown exponentially, and it is estimated that every two years we generate as much data as in the whole history before. Tim Berners-Lee envisaged that machines could help humans in data processing and understanding tasks, giving birth to the Semantic Web field, an scenario in which data is provided together with semantic annotations, allowing its comprehension by algorithms. Years later, in 2006, the Linked Data principles were proposed as a method of publishing structured facts, so that they could be connected (linked) to other resources through the World Wide Web. It relies on standard Web technologies, and is intended to be consumed by computers.
Despite the benefits brought by Linked Data, the adoption of its related developments has normalised after the initial years, and little attempts are performed outside the research community. To make Internet users aware of Linked Data’s advantages, we propose an approach to explore its datasets using visual means, relying on our ability to discover patterns and insights through graphic imageries and depictions.
In order to deal with the diversity of structured data published as Linked Data, our proposal takes a data-driven approach, that is, we base our whole analysis on the data itself, avoiding preconceptions that might lead to wrong conclusions. The main objective is to ease semantic data exploration through suitable visualizations, making any user able to interact with novel datasets with no prior knowledge nor skills required.
In this dissertation, we explain the visualization pipeline that allows to take raw semantic data as input, and produces visual representations as output, together with the involved modules and the contributions we have designed and implemented to push forward the State of the Art on Linked Data Visualization.