Machine learning voor gepersonaliseerde dokter aanbevelingen in een symptoom gebaseerd chatbot systeem

Student:	Jarne Matthijs
Richting:	Master of Science in de industriële wetenschappen: informatica
Abstract:	In dit onderzoek wordt een chatbotapplicatie ontwikkeld die een dokter(specialist) aanraadt aan patiënten op basis van hun symptomen. Daarbij wordt een dataset gebruikt met 131 kolommen aan symptomen waarvan de waarden het type boolean bezitten en een kolom met doktersspecialisaties die de ground truth is. Verschillende machine learning modellen worden getest om aan classificatie te doen in combinatie met feature selection om het aantal features te reduceren. Het decision tree model wordt gekozen voor de ontwikkeling van de chatbotapplicatie vanwege zijn structuur, aangezien de chatbotconversatie gebaseerd kan worden op de gegenereerde beslissingsboom. Daarnaast presteren andere modellen niet beter dan het decision tree model. Verdere evaluatie van het decision tree model toont aan dat verschillende opgegeven random states andere beslissingsbomen genereren, terwijl dezelfde hyperparameters worden gebruikt. Het verschil situeert zich in de features die sommige knopen gebruiken om de splitsing uit te voeren. Vaak wordt exact dezelfde splitsing gemaakt, maar op basis van een ander symptoom. Soms is de splitsing gespiegeld door gebruik te maken van een ander symptoom. Op basis van de testset wordt geen verschil opgemerkt tussen deze verschillende beslissingsbomen, maar in praktijk kan dit echter wel verschillen. Zo kan de ene feature die gebruikt wordt om de boom af te dalen niet van toepassing zijn bij de persoon, maar zou de feature bij de andere boom wel van toepassing zijn om de juiste bladknoop te bereiken. Deze veronderstelling wordt getest door de gebruikers twee versies van de chatbot te laten testen. De eerste versie kijkt steeds naar één symptoom om de beslissingsboom af te dalen, terwijl de andere versie soms meerdere symptomen beschouwt om te navigeren doorheen de boom. Bij het uitvoeren van de gebruikerstesten verwijst de eerste versie 34 procent van de gebruikers correct door en de tweede versie 46 procent. Via de McNemar’s test wordt een significant verschil vastgesteld, waardoor de tweede versie beter is dan de eerste versie in het juist doorverwijzen van patiënten. De statistische testen resulteren in geen significant verschil in gebruiksvriendelijkheid, tevredenheid of tijd die nodig is voor het invullen van de twee chatbotversies. Keywords: chatbot, gezondheidszorg, doktersspecialisatie en aanraden
Abstract (Eng):	Abstract This research involves the development of a chatbot application that recommends doctor(specialties) to patients based on their symptoms. A dataset with 131 columns of symptoms, where the values are booleans, and a column of doctor specialties serving as the ground truth, was utilized. Various machine learning models were tested for classification, combined with feature selection to reduce the number of features. Ultimately, the decision tree model was employed to develop the chatbot application. This model was chosen due to its interesting structure, as the chatbot conversation can be based on the generated decision tree. Additionally, it was observed that other models did not perform better than the decision tree model. Further investigation of the decision tree model revealed that different specified random states generated different decision trees while using the same hyperparameters. The difference lay in the features some nodes used for splitting. Often, the exact same split was made but based on a different symptom. Sometimes, the split was mirrored by using a different symptom. Based on the test set, no difference was observed between these different decision trees, but this may differ in practice. For instance, a feature used to descend the tree may not be applicable to one person but may be relevant to reach the correct leaf node in another tree. This assumption was tested by letting users test two versions. The first version always looked at one symptom to traverse the decision tree, while the other version sometimes considered multiple symptoms to navigate through the tree. During the user tests, version 1 correctly referred 34 percent of users, while version 2 correctly referred 56 percent of users. A significant difference was established via McNemar’s test, indicating that version 2 is superior to version 1 in correctly referring patients. Otherwise, no difference in user-friendliness, satisfaction, or time required to complete the two chatbot versions was found. Keywords Chatbot, healthcare, medical specialization, and recommendation