Het verbeteren van semantische gelijkheid door gebruik van gecontextualiseerde woord representaties

Student:	Thibo Hoffman
Richting:	Master of Science in de industriële wetenschappen: informatica
Abstract:	Deze studie onderzoekt het vermogen van gecontextualiseerde taalmodellen, in het bijzonder BERT, om semantische informatie vast te leggen. De verschillende lagen van BERT worden geëvalueerd op hun doeltreffendheid bij het vastleggen van semantische relaties in gecontextualiseerde woord representaties. De verkregen inzichten worden vervolgens toegepast op aanbevelingssystemen. De studie maakt gebruik van de Google Analogy en BATS datasets om de semantische capaciteiten van het BERT taalmodel te evalueren. In tegenstelling tot eerdere literatuur blijkt dat de onderste lagen van BERT (met name de lagen vier tot en met vijf) de grootste vaardigheid vertonen in het vastleggen van semantische informatie. Verder wordt inzicht gegeven in de specifieke semantische relatie categorieën die door elke laag van BERT worden vastgelegd. Verschillende methoden voor het genereren van document representaties worden besproken. De methoden, zoals BERT TF-IDF, BERT entity weighed en Doc2vec, worden toegepast op de nieuwsartikelen van de MIND dataset. De impact van de verschillende document representaties wordt vergeleken voor de aanbevelingstaak. Meerdere neurale netwerkmodellen worden gebruikt om aanbevelingen te doen, waaronder basis aanbevelingsmodellen, impliciete profielmodellen en een tweetorenmodel. De voorgestelde modellen leveren competitieve resultaten. Interessant is dat de studie ontdekt dat document representaties die worden geproduceerd door de lagen die de meeste semantische informatie vastleggen, niet leiden tot meer kwalitatieve aanbevelingen. In plaats daarvan leveren de document representaties afgeleid van de CLS-token en door mean pooling van de laatste BERT laag de best presterende aanbevelingsmodellen op.
Abstract (Eng):	This study investigates the ability of contextualized language models, specifically BERT, to capture semantic information. The different layers of BERT are evaluated on their efficacy in capturing semantic relationships in contextualized word embeddings. The gained insights are subsequently applied to recommender systems. The study employs the Google Analogy and BATS datasets to evaluate the semantic capabilities of the BERT language model. In contrast to prior literature, it is revealed that the lower layers of BERT (specifically layers three to five) exhibit the most significant proficiency in capturing semantic information. Furthermore, insights are provided into the specific semantic relationships captured by each layer of BERT. Regarding recommender systems, various methods for generating document embeddings are explored. Methods, such as BERT TF-IDF, BERT entity weighted, and Doc2vec, are applied to the news articles of the MIND dataset. The impact of the different kinds of document embeddings is compared for the recommendation task. Multiple neural network models are employed to create recommendations, including basic recommender models, implicit profile models, and a two-tower model. The proposed models deliver competitive performances. Interestingly, the study discovers that document embeddings produced by the layers that capture the most semantic information do not translate to more qualitative recommendations. Instead, the document embeddings derived from the CLS token and through mean pooling of the last BERT layer yield the best-performing recommender models.