De hoeveelheid gegevens in informatiesystemen groeit heel snel en gegevens zijn dikwijls gedistribueerd over heterogene gegevensbronnen. Bijgevolg kan dezelfde informatie op verschillende manieren gemodelleerd zijn, wat coreferentie genoemd wordt. Om de interoperabiliteit van informatiesystemen te verbeteren is het belangrijk dat coreferentie (semi-) automatisch kan worden gedetecteerd. Enerzijds voorzien metadata, bvb. een ontologie of een databankschema, in extra informatie over de data, wat het detecteren van coreferentie op het dataniveau kan ondersteunen. Anderzijds kunnen data, meer specifiek de data die beschreven zijn door metadata, worden gebruikt om coreferentie in metadata terug te vinden.
In deze doctoraatsthesis stellen we twee nieuwe technieken voor om coreferentie op metadata-niveau in XML-databankschemas te detecteren. De eerste techniek vergelijkt namen van schemaelementen lexicaal en beschouwt daarbij hun onderlinge belangrijkheid. De tweede techniek is gebaseerd op inhoudelijke data: attribuutdomeinen worden lexicaal vergeleken en statistisch geanalyseerd om coreferentie te detecteren.
Daarnaast wordt een nieuwe techniek voorgesteld om een kennisbank op te bouwen met semantische informatie over de domeinen van de attributen op basis van een (partiële) orderelatie die een notie van veralgemening weergeeft. Het gebruik en de impact van deze techniek op dataintegratie worden onderzocht. Dank zij de techniek is er geen a priori taxonomische kennis meer nodig over het attribuutdomein om semantische coreferentiedetectie te kunnen uitvoeren.
| |