Doctoraat in de ingenieurswetenschappen: computerwetenschappen

XPath-gebaseerde informatie-extractie


Doctorandus Publieke verdediging
Naam: Joachim Nielandt   Datum: Maandag 06/03/2017 om 16:30 
Adres: vakgroep Telecommunicatie en Informatieverwerking (EA07)
Sint-Pietersnieuwstraat 41, 9000 Gent
  Lokatie: auditorium P Jozef Plateau, gelijkvloers, Jozef Plateaustraat 22, 9000 Gent
Contact FEA: info.ea@ugent.be   Taal: Nederlands

Curriculum
Master computer wetenschappen - software ontwikkeling, Universiteit Gent, 2010

Promotor
Guy De Tré
Antoon Bronselaer

Examencommissie
prof. Gert De Cooman
Guy De Tré (EA07)
Antoon Bronselaer (EA07)
Marie-Jeanne Lesot
Slawomir Zadrozny
Sofian De Clercq, Universiteit Gent, Faculteit Ingenieurswetenschappen en Architectuur, EA07 - Vakgroep Telecommunicatie en Informatieverwerking, Sint-Pietersnieuwstraat 41, B3, 9000 Gent
E: sofian.declercq@ugent.be
Filip Pattyn
Thomas Demeester

Onderzoeksthema

Deze thesis stelt drie methodes voor om het probleem van extractie van textuele informatie uit web pagina's aan te pakken. Hierbij is het belangrijk om de kwaliteit van de resulterende data zo hoog mogelijk te houden. Ten eerste wordt een methode beschreven om informatie uit web pagina's te extraheren door gebruik te maken van de bevragingstaal XPath. Een gebruiker kan voorbeelden geven aan het systeem, waarna er stukken data worden gevonden waarvan de structurele positie gelijkaardig is aan die van de voorbeelden. Extra informatie wordt dus opgehaald die hopelijk gewenst is door de gebruiker. Een tweede methode wordt voorgesteld om de precisie van de eerste te verbeteren. De hoeveelheid ongewenste data die door het systeem wordt opgehaald wordt geminimaliseerd door de inhoud van de web pagina's te inspecteren, in plaats van enkel de structuur ervan de beschouwen. Dit komt neer op het analyseren van de context van de gebruikervoorbeelden. Ten derde wordt een zekere vorm van automatisering ingebouwd in het systeem, wat een gebruiker er toe in staat stelt een aantal web pagina's en een set van termen aan te reiken. Op basis hiervan gaat het systeem vervolgens nieuwe termen proberen zoeken die nog niet in de set aanwezig zijn, in de aangereikte web pagina's. De voorgestelde methodiek is reeds succesvol toegepast in een data extractie raamwer


Taal proefschrift
Engels

Documenten