Heterogene data-veralgemening in gedistribueerde intrusiedetectiesystemen op basis van gefedereerd leren

Student:Niels Savvides
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:Deze studie onderzoekt de doeltreffendheid van Federated Learning (FL) voor Intrusion Detection Systems (IDS) binnen heterogene netwerkomgevingen, gebruikmakend van de NetFlow V2-datasets. Het experimentele kader gebruikte het Flower-framework op de Virtual Wall II-infrastructuur, bestaande uit vier worker nodes die elk een niet-onafhankelijke en identiek verdeelde (non-IID) datasilo hosten, en een centrale server op een vijfde node die de globale modelupdates coördineerde. De prestaties van traditionele FL-aggregatie-algoritmen - FedAvg en FedProx - werden geëvalueerd ten opzichte van gepersonaliseerde benaderingen FedBN en APFed. De hypothese stelde dat modellen die getraind zijn op bekende datasets superieure prestaties zouden vertonen in vergelijking met modellen die getraind zijn op onbekende datasets. De bevindingen bevestigden deze hypothese, waarbij alle strategieën over het algemeen slechter presteerden op onbekende datasets en in sommige gevallen zelfs op bekende datasets. Opmerkelijk was dat APFed de meest effectieve prestaties liet zien, met een gemiddelde Area Under the Receiver Operating Characteristic (AUROC) van 77\% voor bekende datasets en 65\% voor onbekende datasets in de slechtste gevallen, en 95\% en 82\% in de beste gevallen. Ter vergelijking, FedAvg behaalde 57\% en 39\% in de slechtste gevallen, en 92\% en 89\% in de beste gevallen voor respectievelijk bekende en onbekende datasets. Deze studie benadrukt het potentieel van Personalized Federated Learning (PFL)-algoritmen om effectief te generaliseren over diverse netwerksettings. Door unieke data-eigenschappen van elke node te integreren, verbetert APFed de robuustheid en aanpasbaarheid van modellen, wat wijst op een veelbelovende weg voor toekomstig onderzoek naar het optimaliseren van federated beveiligingssystemen tegen evoluerende bedreigingen.
Abstract (Eng):This study investigates the efficacy of Federated Learning (FL) for Intrusion Detection Systems (IDS) within heterogeneous network environments, leveraging the NetFlow V2 Datasets. The experimental framework utilized the Flower framework on the Virtual Wall II infrastructure, comprising four worker nodes each hosting a non-independent and identically distributed (non-IID) data silo, and a central server on a fifth node that coordinated the global model updates. The performance of traditional FL aggregation algorithms—FedAvg and FedProx were evaluated against personalized approaches FedBN and APFed. The hypothesis posited that models trained on familiar datasets would exhibit superior performance compared to those trained on unseen datasets. The findings confirmed this hypothesis, showing that all strategies generally underperformed on unseen datasets and, in some cases, even on seen datasets. Notably, APFed demonstrated the most effective performance, achieving a mean Area Under the Receiver Operating Characteristic (AUROC) of 77\% for seen datasets and 65\% for unseen datasets in the worst cases, and 95\% and 82\% in the best cases. In contrast, FedAvg achieved 57\% and 39\% in the worst cases, and 92\% and 89\% in the best cases for seen and unseen datasets, respectively. This study underscores the potential of Personalized Federated Learning (PFL) algorithms to generalize effectively across diverse network settings. By incorporating unique data characteristics from each node, APFed enhances the robustness and adaptability of models, indicating a promising avenue for future research in optimizing federated security systems against evolving threats.