Verklaarbare AI-technieken voor detectie van contaminerende eigenschappen voor verbeterde intrusiedetectie op basis van Machine Learning

Student:Raman Talwar
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:Dit werk onderzoekt de uitdagingen en pijnpunten op het gebied van machine learning-gebaseerde Intrusion Detection Systems (IDS). De studie identificeert het gebrek aan generalisatie, uitdagingen met betrekking tot multi-databronnen, en de behoefte aan verklaarbare AI (XAI) technieken als belangrijke problemen in het huidige onderzoek. In dit werk wordt een methodologie voorgesteld om het generalisatieprobleem aan te pakken. De voorgestelde methodologie gebruikt XAI-technieken, in het bijzonder SHAP, om contaminerende eigenschappen in IDS-datasets te detecteren en hun impact op het generalisatievermogen van modellen voor machinaal leren te evalueren. De resultaten op de NetFlow V2-datasets brengen verontreinigingen in de datasets aan het licht, wat de behoefte aan een betere kwaliteit en samenstelling van de datasets benadrukt. Het effect van deze verontreinigingen op de generalisatieprestaties van verschillende classificatiemodellen wordt beoordeeld. Het verwijderen van deze verontreinigingen uit de datasets zou de generalisatiekracht van de modellen verbeteren, maar dit blijkt onjuist te zijn. De analyse van de distributies van de eigenschappen over datasets met behulp van de Kolmogorov-Smirnov test suggereert dat het aanpakken van de datasetkwaliteit en het simuleren van diverse aanvalsscenario’s de generalisatiemogelijkheden kan verbeteren. Deze studie benadrukt het belang van de kwaliteit en samenstelling van datasets voor het verbeteren van de generalisatieprestaties van IDS-modellen en roept op tot verder onderzoek naar het genereren van representatieve datasets die reele inbraakscenario’s weerspiegelen.
Abstract (Eng):This thesis investigates the challenges and pain points in the field of machine learning-based Intrusion Detection Systems (IDSs). The study identifies the lack of generalization, multi-datasource challenges, and the need for Explainable AI (XAI) techniques as key issues in current research. This work proposes a methodology to tackle the generalization issue. The proposed methodology utilizes XAI techniques, specifically SHAP, to detect contaminating features in IDS datasets and evaluate their impact on the generalization ability of machine learning models. The results on the NetFlow V2 datasets reveal contaminants in the datasets, highlighting the need for improved dataset quality and composition. The effect of these contaminants on the generalization performance of various classification models is assessed. Removing these contaminants from the datasets was hypothesized to improve the generalization strength of the models, but this is proven to be erroneous. The analysis of feature distributions across datasets using the Kolmogorov-Smirnov Test suggests that addressing dataset quality and simulating diverse attack scenarios can enhance generalization capabilities. This study emphasizes the importance of dataset quality and composition for improving the generalization performance of IDS models and calls for further research in generating representative datasets reflecting real-world intrusion scenarios.