Onderzoek naar de impact van Federated Learning op de generalisatie van op machine learning gebaseerde intrusiedetectie

Student:Arthur Isaac
Richting:Master of Science in de industriƫle wetenschappen: informatica
Abstract:Het internet is de afgelopen tien jaar aanzienlijk gegroeid in omvang en complexiteit. Deze snelle groei heeft ook geleid tot een toename van kwaadaardige activiteiten waarmee het te maken krijgt. Als gevolg hiervan is het belang van een robuuste netwerkbeveiliging fors toegenomen. Binnen deze beveiliging spelen intrusie detectie systemen (IDS) een cruciale rol bij het beschermen van de netwerkinfrastructuur. Het gebruik van machinaal leren (ML) is een doeltreffend hulpmiddel gebleken voor dergelijke systemen bij het detecteren van netwerkaanvallen. Het ontwerpen van een ML-gebaseerd IDS dat goed generaliseert over heterogene netwerkdata afkomstig van verschillende bronnen is echter een grote uitdaging gebleken. Dit heeft geleid tot een teleurstellende adoptie van ML-gebaseerde IDS in de praktijk. Een leerproces waarbij de verschillende bronnen samenwerken kan helpen bij de ontwikkeling van ML-modellen die goed generaliseren over de data van al deze bronnen, omdat er een algehele statistische representatie van de verschillende netwerkstructuren bekomen kan worden. Bij een gecentraliseerde benadering worden de data rechtstreeks gedeeld tussen meerdere partijen, wat aanzienlijke privacy- en beveiligingszorgen met zich meebrengt. Om deze problemen aan te pakken, is een alternatieve benadering vereist. Dit vormt de basis voor de adoptie van gefedereerd leren, een samenwerking die de noodzaak voor uitwisseling van data elimineert en daarmee de privacy en beveiliging waarborgt. In deze scriptie wordt een nieuwe methodologie voorgesteld voor de binaire classificatie van netwerkstromen op een gesuperviseerde manier. Het primaire doel is om de generalisatie te verbeteren tussen de verschillende partijen die deelnemen aan een gefedereerd leerproces. De experimentele resultaten tonen aan dat de generalisatie enorm verbeterd is in vergelijking met een basismethode. Bovendien is de prestatie die wordt bereikt door middel van gefedereerd leren gelijkwaardig aan die van de gecentraliseerde benadering.
Abstract (Eng):The Internet has greatly expanded in size as well as in complexity over the last decade. This rapid expansion has also led to an increase in the level of malicious activity it encounters. As a consequence, the importance of a robust security suite has grown tremendously. Within this suite, intrusion detection systems (IDS) play a crucial role in safeguarding the network infrastructure. The use of machine learning (ML) has been proven to be an effective aid for such systems in the detection of network attacks. However, it has been very challenging to design a ML-based IDS that generalizes appropriately across heterogeneous network data originating from different sources. This leads to a rather disappointing adoption of ML-based IDS in real-world situations. A collaborative learning scheme can help in the development of ML models that generalize well over the data from different sources, as an overall statistical representation of the different network structures can be established. A centralised approach involves direct sharing of data among multiple parties, which raises significant privacy and security concerns. To address these issues, an alternative scheme is required. This sets the stage for the adoption of federated learning, a collaborative learning approach that eliminates the need for data sharing and thereby ensures greater privacy and security. This dissertation proposes a novel methodology for the binary classification of network flows in a supervised manner. Its primary aim is to improve the generalization among the different parties that are participating in a federated learning scheme. The experimental results demonstrate that the generalization performance is significantly improved compared to a baseline approach. Additionally, the performance achieved through federated learning is equivalent to that of the centralised approach.