EVA: ontwerp van een systeem voor eventanalyse in ongestructureerde data

Student:Hanne Dejonghe
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:In het huidige digitale tijdperk creëert de hoeveelheid tekstuele data, die online te vinden is, zowel een kans als een uitdaging voor wetenschappers, historici en analisten die proberen om zinvolle verhalen te ontdekken in grote verzamelingen tekst. Enerzijds kunnen ze gebruikmaken van traditionele information retrieval systems, zoals zoekmachines, die beschikken over krachtige zoekopties, maar vaak moeite hebben om de genuanceerde relaties tussen temporele, ruimtelijke en contextuele elementen te begrijpen. Anderzijds zijn er relationele databases die uitblinken in het verwerken van dergelijke complexe zoekopdrachten en queries, maar die geen ondersteuning bieden voor het behouden van tekst in zijn ongestructureerde formaat, wat cruciaal is voor het in stand houden van de volledige context van een document. Deze masterscriptie introduceert EVA (Event Analytics), een innovatief systeem dat is ontworpen om de brug te bouwen tussen relationele databases en de zoek kracht van traditionele information retrieval systems (IRS), zonder afhankelijk te zijn van artificiële intelligentie. Het systeem maakt gebruik van inzichten uit de datajournalistiek en combineert de sterke punten van relationele databases met IRS om event analyse te verbeteren. Er zijn vijf operatoren gecreëerd voor EVA: AGGREGATE, DIVIDE, DISCOVER, CROSSTAB en FIND. De uitvoering van queries met deze operatoren wordt optimaal gemaakt door een robuust index ontwerp. EVA verwerkt documentcollecties door de tekst te verrijken met technieken uit het semantic search onderzoeksgebied waardoor en meerlagige documentstructuur gecreëerd wordt. Dit vereenvoudigt de extractie en analyse van events op basis van hun actoren en de temporele en ruimtelijk aspecten. Er wordt een indexontwerp voorgesteld dat uitgebreid wordt met vooraf berekende informatie dat het uitvoeren van EVA-operatoren verbetert. Daarnaast wordt de rol van visualisatie van data benadrukt door in te zetten op een sterkere representaties van de uitvoer. Dit werk draagt bij aan information retrieval, semantic search en event analyse door wetenschappers, historici en analisten een tool aan te bieden die gericht is op het stroomlijnen van de ontdekking en interpretatie van verhalen in grote documentcollecties. Hierdoor kan tijd en moeite uitgespaard worden.
Abstract (Eng):In today’s digital age, the amount of online textual data creates both an opportunity and a challenge for scholars, historians and analysts who are aiming to uncover meaningful narratives within large document archives. On one hand, they can use traditional Information Retrieval Systems IRS, such as search engines, that offer powerful search capabilities but often struggle to understand the nuanced relationships between temporal, spatial and contextual elements. On the other hand, they can use a relational database that excels in handling such complex searches and queries but does not support maintaining the text in its unstructured format, which is crucial to keeping the full context of the document. This master’s thesis introduces EVA (Event Analytics), a novel system designed to bridge the gap between relational databases and the broad searching capabilities of traditional information retrieval systems, without depending on complex machine learning algorithms. The system leverages insights from data journalism and combines the strengths of relational databases and IRS to enhance event analytics through five primary operators: FIND, AGGREGATE, DIVIDE, DISCOVER and CROSSTAB. To enhance the efficiency of the queries, robust indexes are created. EVA preprocesses document collections and enriches textual data using techniques from the semantic search field, creating a multi-layered document structure. This makes event extraction and analysis based on their actors, temporal and spatial aspects easier. It proposes an index design extended with precomputed information created specifically for the EVA operators. Additionally, it emphasizes the role of visualization in human processing by transforming textual and tabular query output into more visual representations. This work contributes to information retrieval, semantic search and event analytics, providing a practical tool for scholars, historians and analysts. It aims to streamline the discovery and interpretation of narratives hidden within large text corpora, significantly reducing the time and effort needed for research tasks.