Doctoraat in de ingenieurswetenschappen: computerwetenschappen

Efficiënte data-annotatie en augmentatiemethoden voor conversationele systemen


Doctorandus Publieke verdediging
Naam: Maarten De Raedt   Datum: Vrijdag 05/07/2024 om 15:00 
Adres: vakgroep Informatietechnologie (EA05)
Technologiepark Zwijnaarde 126, 9052 Zwijnaarde
  Lokatie: auditorium 1, iGent, eerste verdieping, Technologiepark Zwijnaarde 126, 9052 Zwijnaarde
Contact FEA: info.ea@ugent.be   Taal: Nederlands

Curriculum
Master in de ingenieurswetenschappen: computerwetenschappen, 2018, KULeuven
Bachelor in de informatica, 2016, Universiteit Gent

Promotor
Chris Develder
Thomas Demeester
Fréderic Godin

Examencommissie
prof. Filip De Turck
Chris Develder (EA05)
Thomas Demeester (EA05)
Fréderic Godin (Sinch Belgium)
Kris Demuynck
Arda Tezcan
Luna De Bruyne
Tim Van de Cruys

Onderzoeksthema

Recente vooruitgang in taalmodellering, vooral met grote taalmodellen (LLMs) zoals ChatGPT, heeft de capaciteiten van chatbots aanzienlijk verbeterd. Deze chatbots worden grofweg ingedeeld in open-domein chatbots die algemene gesprekken voeren, en taakgerichte chatbots, die gebruikers helpen bij specifieke taken zoals het boeken van vluchten of het afhandelen van klantensupport. Deze thesis richt zich op het democratiseren van taakgerichte chatbots door hun computationele en data-efficiëntie te verbeteren. De thesis introduceert innovatieve methoden voor twee belangrijke taken van chatbots: 1) Automatische data-annotatie: Deze techniek gebruikt unsupervised learning om klantenvragen automatisch in specifieke onderwerpen te categoriseren, waardoor de behoefte aan handmatige geannoteerde trainingsdata wordt verminderd. 2) Data-augmentatie: We presenteren methoden om extra trainingsvoorbeelden te genereren door bestaande voorbeelden systematisch te transformeren. Deze aanpak verhoogt de diversiteit in de trainingsdata en verbetert daarmee de robuustheid van chatbots tegen ruis in de data, wat vaak voorkomt in de praktijk Met deze methodes streven we ernaar de computationele middelen en data-vereisten voor het trainen van chatbots te verminderen, waardoor geavanceerde chatbots toegankelijker en praktischer worden voor breed gebruik in verschillende industrieën.


Taal proefschrift
Engels

Documenten