Data extractie uit gerechtelijke uitspraken van het Hof van Cassatie

Student:Kasper De Smedt
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:Het doel van deze masterproef is om de vaak voorkomende onderdelen (verder in deze tekst secties genoemd) uit een uitspraak van het Hof van Cassatie the extraheren. Dit is een eerste stap in het vergemakkelijken van de analyse van deze uitspraken. De sectietypes die we in de uitspraken willen detecteren zijn de volgende: de erm{partijgegevens}, het erm{motiverend gedeelte} en het erm{beslissend gedeelte}. Om de gerechtelijke uitspraken in tekstfragmenten op te splitsen gebruiken we headers uit het document die we herkennen met behulp van een classificatie-algoritme. Elk zo bekomen tekstfragment krijgt één van de drie sectietypes aangewezen. Om te beslissen welk sectietype het beste past bij een tekstfragment wordt een K-means clusteralgoritme cite{kmeans:macqueen1967,kmeans:Lloyd:2006:LSQ:2263356.2269955} gebruikt dat kijkt naar de tekstuele inhoud van de stukken. Voor de verschillende sectietypes en headertypes (headers met een gelijkaardige woordenschat worden als één type beschouwd) wordt bekeken wat het typische taalgebruik is in de bijhorende tekst. Verder onderzoek moet aantonen of het taalgebruik in een tekstfragment kan gebruikt worden om het type header dat eraan voorafgaat te voorspellen. Het was de bedoeling om aan de hand van taalgebruik interessante of ongewone delen van een gerechtelijke uitspraak naar boven te brengen. We concluderen in deze masterproef dat de beschreven headerdetectie headers kan onderscheiden van niet-headers (gewone tekst) met een erm{accuracy} van 99,4\%, en dat 91,3\% van de headers herkend worden (dit komt overeen met een erm{sensitivity} van 91,3\%). Het K-means clusteralgoritme wijst 91,5\% van de tekstfragmenten toe aan het juiste sectietype.
Abstract (Eng):The aim of this master thesis is to extract different sections common in rulings of the (Belgian) Court of Cassation. This is a first step in better support for analysis of these rulings. The section types we try to detect are the following: the heading (party names and other information), the motivating part, and the decision. To split the rulings into text fragments we use their headers, which are detected using a classification algorithm. Each text fragment is assigned to one of the three section types. To decide with type fits the best, the fragments are clustered based on their textual content using a K-means clustering algorithm cite{kmeans:macqueen1967,kmeans:Lloyd:2006:LSQ:2263356.2269955}. For each section type and for recurring header types (headers with a similar vocabulary), we look at the vocabulary that was typical for the associated text. Whether this can be use to predict the header type of a text fragment needs further research. Our research goal was to extract interesting or unusual parts of a court ruling from facts about their typical vocabulary. We conclude that the header detection can distinguish headers from non-headers with an accuracy of 99.4\%, and that 91.3\% of the headers get recognized (i.e. a sensitivity of 91.3\%). The K-means clustering algorith assigns 91.5\% of the text fragments to the correct section type.