Automatisch scoren van opname-oefeningen in digitale toetssoftware

Student:Hikmat El Haj
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:Het verbeteren van mondelinge toetsen en examens is een tijdrovende taak voor leerkrachten. Daarom wordt er een systeem ontworpen dat geschikt is voor het verbeteren van opgenomen audio antwoorden, zoals een mondelinge overhoring. Het doel is om dit proces te automatiseren om zo de druk op leerkrachten te verminderen en de kwaliteit in het onderwijs te verbeteren. Dit proces van automatisch verbeteren bestaat uit twee stappen: het converteren van de audio naar tekst enerzijds en het effectief verbeteren van de tekst anderzijds. In deze masterproef wordt de bestaande technologie Whisper gebruikt voor de spraakherkenning. Er wordt onderzocht hoe een aangepaste woordenboek (custom dictionary) kan helpen bij het herkennen van vakjargon. Er worden twee technieken onderzocht om dit te realiseren, namelijk bias addition en prompting. Het resultaat helpt om moeilijke woorden beter te herkennen. Bij de tweede stap wordt automatische correctie toegepast. Er bestaan verschillende soorten technieken om te controleren of een antwoord correspondeert met een modelantwoord. Ondanks het bestaan van deze verschillende technieken, is tot op heden geen onderzoek gevoerd dat specifiek gericht is op automatische correctie. Deze masterproef bespreekt enkele van deze technieken en implementeert vervolgens één ervan, namelijk natural language inference (NLI). Vervolgens wordt de automatische correctie geëvalueerd op twee datasets: een dataset van Televic en een zelfgemaakte dataset. De resultaten op de dataset van Televic zijn niet conclusief omdat de dataset niet optimaal is voor deze toepassing. De zelfgemaakte dataset toonde daarentegen veelbelovende resultaten, waardoor de betrouwbaarheid van de automatische verbetering wordt versterkt.
Abstract (Eng):Scoring oral assessments and exams is a time-consuming task for teachers. Therefore, a system suitable for scoring recorded audio answers, such as a verbal test, is designed in this thesis. The goal is to automate this process in order to reduce the burden on teachers and enhance the quality of education. This process of automatic scoring consists of two steps: converting audio into text and actually correcting the text. In this thesis, the existing Whisper technology is used for speech recognition. We explore how a custom dictionary can assist in recognizing subject-specific jargon. Two techniques are examined to achieve this: bias addition and prompting. The outcome aids in better recognition of challenging words. The second step involves applying automatic scoring. There are various techniques available to check if an answer corresponds to a model answer. However, to date, no research has specifically focused on automatic scoring. This thesis discusses some of these techniques and subsequently implements one of them, namely natural language inference (NLI). The automatic scoring is then evaluated using two datasets: one from Televic and another self-created dataset. The results from the Televic dataset are inconclusive due to its suboptimal suitability for this application. On the other hand, the self-created dataset demonstrates promising results, thereby reinforcing the reliability of the automatic scoring.