Deze thesis stelt drie methodes voor om het probleem van extractie van textuele informatie uit web pagina's aan te pakken. Hierbij is het belangrijk om de kwaliteit van de resulterende data zo hoog mogelijk te houden.
Ten eerste wordt een methode beschreven om informatie uit web pagina's te extraheren door gebruik te maken van de bevragingstaal XPath. Een gebruiker kan voorbeelden geven aan het systeem, waarna er stukken data worden gevonden waarvan de structurele positie gelijkaardig is aan die van de voorbeelden. Extra informatie wordt dus opgehaald die hopelijk gewenst is door de gebruiker.
Een tweede methode wordt voorgesteld om de precisie van de eerste te verbeteren. De hoeveelheid ongewenste data die door het systeem wordt opgehaald wordt geminimaliseerd door de inhoud van de web pagina's te inspecteren, in plaats van enkel de structuur ervan de beschouwen. Dit komt neer op het analyseren van de context van de gebruikervoorbeelden.
Ten derde wordt een zekere vorm van automatisering ingebouwd in het systeem, wat een gebruiker er toe in staat stelt een aantal web pagina's en een set van termen aan te reiken. Op basis hiervan gaat het systeem vervolgens nieuwe termen proberen zoeken die nog niet in de set aanwezig zijn, in de aangereikte web pagina's.
De voorgestelde methodiek is reeds succesvol toegepast in een data extractie raamwer | |