Verbetering van de flexibiliteit voor het ophalen van gegevens aan de hand van geaggregeerde Linked Data Event Streams

Student:Stijn De Cuyper
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:Tijdens deze thesis wordt gezocht naar een methode voor het aggregeren van tijdreeksen en deze te publiceren via Linked Data Event Streams (LDES). Deze aggregaten dienen om een antwoord te geven op de taak ”Voorspel hoe druk het in de stad is”. Voor het publiceren van de aggregaten is een TypeScript klasse ontwikkeld. Deze klasse zorgt ervoor dat de aggregaten als ”Linked Data”publiceert worden dankzij het gebruik van LDES. Naast het opzetten van de LDES worden de members van de LDES:EventStream gefragmenteerd en aan de gebruiker voorgesteld met behulp van een B-Tree. Het aggregeren van de tijdreeksen werd op drie manieren benaderd: een MongoDb pipeline, code functies in combinatie met Comunica en een SPARQL query die uitgevoerd wordt dankzij Comunica. Hierbij scoorde de MongoDb pipeline het best op performantie, echter had deze het nadeel geen gebruik te maken van de Linked Data. Het aggregeren door middel van code scoorde minder op performantie door de beperkingen van Comunica 2.6.9. Het uitvoeren van gegevensaggregatie via SPARQL- query’s was niet mogelijk vanwege de beperkingen van Comunica 2.6.9. Het opstellen van een query met een ”groupby-optie bleek onhaalbaar. Dit kan worden toegeschreven aan de naïeve benadering van Comunica 2.6.9, waarbij steeds alle relaties tussen datapunten worden gevolgd. Het is van belang dat deze beperkingen in de toekomst na dit onderzoek worden opgelost, zodat de laatste twee benaderingen verder onderzocht kunnen worden. Voor het gebruik van de ”Linked Data”, voor het voorspellen van de drukte van de stad, worden de gewenste aggregaten opgehaald uit de LDES:EventStream en geëxporteerd naar Turtle-bestanden. Zo kunnen deze worden ingelezen in de Jupyter notebook en worden omgevormd naar een dataframe. Hierdoor is de data bruikbaar om een antwoord te vinden op de vraag ”Hoe druk is het in de stad”. Als uitbreiding op dit onderzoek zou het gebruik van SPARQL queries voor het aggregeren van ”Linked Data” verder dienen te worden onderzocht. Verder kan de integratie van LDES in Jupyter Notebook een positieve toevoeging zijn voor de toegankelijkheid van Linked Data voor Data Science doeleinden. Als laatste uitbreiding is het dynamisch aanmaken van een nieuwe LDES een interessante mogelijkheid voor het publiceren van aggregaten als Linked Data. Kernwoorden: Drukte, Tijdreeksen, Open Data, Linked Data, Linked Data Event Streams, Aggregeren
Abstract (Eng):In this thesis, a method for aggregating time series and publishing them using Linked Data Event Streams (LDES) is searched. These aggregates are used to find an answer for the task of predicting how busy it is in the city. A TypeScript class has been developed for publishing the aggregates. This class makes it possible to publish the aggregates as ”Linked Data”. For publishing the data the concept of LDES was used. Besides setting up the LDES, the members of the LDES:EventStream are fragmented and presented to the user using a B-Tree. Aggregating the time series was approached in three ways: a MongoDb pipeline, code functions combined with Comunica and a SPARQL query executed thanks to Comunica. Here, the MongoDb pipeline scored best on performance, however, it had the disadvantage of not using the Linked Data. The execution of data aggregation through SPARQL queries was not possible due to the limitations of Comunica 2.6.9. Formulating a query with a ”groupby”option proved to be unattainable. This can be attributed to the naive approach of Comunica 2.6.9, where all relationships between data points are consistently tracked. For using the ”Linked Data”, for predicting the city’s crowds, the desired aggregates are retrieved from the LDES:EventStream and exported to Turtle files. Next, these can be read into the Jupyter notebook and transformed into a data frame. This makes the data usable for answering to the question ”how busy is the city”. As an extension to this research, the limitations of Comunica 2.6.9 should be resolved in the short future following this study, herefor the use of SPARQL queries to aggregate ”Linked Data" should be further explored. Furthermore, the integration of LDES into Jupyter Notebook could be a positive addition for the accessibility of Linked Data for data science purposes. As a final extension, the dynamic creation of a new LDES is an interesting possibility for publishing aggregates as Linked Data. Keywords: Busyness, Time series, Open Data, Linked Data, Linked Data Event Streams, Aggregates