Document classificatie en informatie extractie voor bedrijven in de financiële sector door middel van AI technieken

Student:Bram De Bleecker
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:Bedrijven in de financiële sector moeten dagelijks veel documenten van klanten verwerken. Dit omvat het classificeren van de documenten op basis van hun documenttype (bijv. factuur, schadeclaim) en het extraheren van belangrijke informatie zoals namen, adressen en verzekeringsnummers. Dit handmatig doen is een zeer tijdrovende taak die resulteert in een steeds grotere werklast naarmate het aantal klanten toeneemt. In dit onderzoek is het doel de werklast van het bedrijf te verlichten en tegelijkertijd de klanten tevreden te houden. Meer bepaald door algoritmen voor machinaal leren te integreren om de documenten automatisch te classificeren op basis van hun documenttype en de belangrijke informatie eruit te halen. Voor de classificatietaak werden een Convolutioneel Neuraal Netwerk, een Long Short-Term Memory Model en een Bidirectional Encoder Representations from Transformers model (BERT) geïmplementeerd. Elk model werd getest op 3 partities van de documenten. Deze verdeelden de dataset in respectievelijk 3, 12 en 42 verschillende klassen. Voor de informatie-extractietaak werd een BERT-model voor named entity recognition geïmplementeerd. Dit model werd getraind om 9 verschillende entiteittypes te herkennen. Eenmaal op een dataset met documenten van één bedrijf, en eenmaal op een dataset met documenten van 20 verschillende bedrijven. Met F1 scores van 98.12%, 96.56% en 76.93% voor BERT getraind op respectievelijk 3, 12 en 42 verschillende documenttypes, presteert BERT beter dan de andere modellen voor de documentclassificatietaak en kan het dus beschouwd worden als de beste optie van de drie. Voor de informatie-extractie taak kan BERT de verschillende entiteittypes herkennen met een f1-score van 96.03% op de dataset met één bedrijf en een f1-score van 78.04% op de dataset met meerdere bedrijven. Op basis van deze veelbelovende resultaten kunnen we concluderen dat het zeker mogelijk en nuttig is om machine learning algoritmen te gebruiken voor documentverwerking in financiële bedrijven.
Abstract (Eng):Companies in the financial sector have to process lots of documents from customers on a daily basis. This includes classifying the documents based on their document type (e.g. invoice, damage claim) and extracting the important information such as names, addresses and insurance numbers. Doing this manually is a very time consuming task, resulting in an ever-growing workload as the amount of customers increases. In this dissertation the aim is to lighten the workload of the company while keeping the customers happy. Specifically by integrating machine learning algorithms to automatically classify the documents based on their document type and extract the important information. For the classification task, a Convolutional Neural Network, Long Short-Term Memory Model and Bidirectional Encoder Representations from Transformers model (BERT) were implemented. Each model was tested on 3 partitioning of the documents. These divided the dataset into respectively 3, 12 and 42 different classes. For the information extraction task a BERT model for named entity recognition was implemented. This model was trained to recognize 9 different entity types. Once on a dataset with documents of a single company, and once on a dataset with documents from 20 different companies. With F1 scores of 98.12%, 96.56% and 76.93% for BERT trained on 3, 12 and 42 different document types respectively, BERT outperforms the other models for the document classification task and is considered the better option out of the three. On the information extraction task, BERT is able to recognize the different entity types with an f1-score of 96.03% on the dataset with one company and an f1-score of 78.04% on the dataset with multiple companies. Based on these promising results, we can conclude that it is definitely possible and useful to utilize machine learning algorithms for document processing in financial companies.