Doctorandus

Publieke verdediging

Naam:	Joachim Nielandt	Datum:	Maandag 06/03/2017 om 16:30
Adres:	vakgroep Telecommunicatie en Informatieverwerking (EA07) Sint-Pietersnieuwstraat 41, 9000 Gent	Lokatie:	auditorium P Jozef Plateau, gelijkvloers, Jozef Plateaustraat 22, 9000 Gent
Contact FEA:	info.ea@ugent.be	Taal:	Nederlands

Curriculum
Master computer wetenschappen - software ontwikkeling, Universiteit Gent, 2010

Promotor

Guy De Tré

Antoon Bronselaer

Examencommissie

prof. Gert De Cooman

Guy De Tré (EA07)

Antoon Bronselaer (EA07)

Marie-Jeanne Lesot

Slawomir Zadrozny

Sofian De Clercq, Universiteit Gent, Faculteit Ingenieurswetenschappen en Architectuur, EA07 - Vakgroep Telecommunicatie en Informatieverwerking, Sint-Pietersnieuwstraat 41, B3, 9000 Gent
E: sofian.declercq@ugent.be

Filip Pattyn

Thomas Demeester

Onderzoeksthema

Deze thesis stelt drie methodes voor om het probleem van extractie van textuele informatie uit web pagina's aan te pakken. Hierbij is het belangrijk om de kwaliteit van de resulterende data zo hoog mogelijk te houden. Ten eerste wordt een methode beschreven om informatie uit web pagina's te extraheren door gebruik te maken van de bevragingstaal XPath. Een gebruiker kan voorbeelden geven aan het systeem, waarna er stukken data worden gevonden waarvan de structurele positie gelijkaardig is aan die van de voorbeelden. Extra informatie wordt dus opgehaald die hopelijk gewenst is door de gebruiker. Een tweede methode wordt voorgesteld om de precisie van de eerste te verbeteren. De hoeveelheid ongewenste data die door het systeem wordt opgehaald wordt geminimaliseerd door de inhoud van de web pagina's te inspecteren, in plaats van enkel de structuur ervan de beschouwen. Dit komt neer op het analyseren van de context van de gebruikervoorbeelden. Ten derde wordt een zekere vorm van automatisering ingebouwd in het systeem, wat een gebruiker er toe in staat stelt een aantal web pagina's en een set van termen aan te reiken. Op basis hiervan gaat het systeem vervolgens nieuwe termen proberen zoeken die nog niet in de set aanwezig zijn, in de aangereikte web pagina's. De voorgestelde methodiek is reeds succesvol toegepast in een data extractie raamwer

Taal proefschrift
Engels

Documenten

Doctoraat in de ingenieurswetenschappen: computerwetenschappen