ADAM: Een Moderne Dataset voor Kwaadaardige PE Detectie

Student:Yentl Pauwels
Richting:Master of Science in de industriƫle wetenschappen: informatica
Abstract:

ADAM: A Novel Dataset for Malicious PE Detection

Deze thesis beschrijft ADAM (Augmented Dataset on the Analysis of Malware), een nieuwe gelabelde benchmark dataset voor het trainen van ML modellen voor het detecteren van kwaadaardige Windows portable executables.
Het doel van dit project is om het gebrek aan vooruitgang op het gebied van ML-ondersteunde cybersecurity in de academische gemeenschap aan te pakken en een benchmark te worden voor al het toekomstig onderzoek over dit onderwerp.

De dataset bevat 32.696 geëxtraheerde samples, met een 50/50 verdeling van kwaadaardige vs. goedaardige samples, afkomstig uit een verzameling van ongeveer 110.000 recente uitvoerbare bestanden.
De innovatie van deze dataset ligt in de manier waarop de statische analyse wordt uitgevoerd. Het framework dat is gebouwd voor de analyse en extractie van samples, maakt gebruik van een containeromgeving die is geïmplementeerd op een Kubernetes-cluster.
Dit framework voert niet alleen analyses uit van hostgebaseerde aanvallen, maar simuleert ook netwerkgebaseerde aanvallen en verwerkt deze resultaten. Dit stelt onderzoekers in staat om een platform te hebben voor zowel de verkenning van netwerk- als hostgebaseerde aanvallen.

Deze paper schetst het werk dat nodig is om feature-extractietools in het huidige framework onder te brengen en biedt een uitgebreide analyse van de verkregen dataset.
Daarnaast worden enkele basismodellen voor machine learning zonder optimalisatie geleverd om het gebruik en de prestaties van ADAM te demonstreren.

Abstract (Eng):

ADAM: A Novel Dataset for Malicious PE Detection

This paper describes ADAM (Augmented Dataset on the Analysis of Malware), a novel labeled benchmark dataset for training ML models to detect malicious Windows portable executables.
The goal of this thesis is to address the lack of progress in the field of ML-aided cybersecurity in the academic community and to become a benchmark for all future research on this topic

The dataset contains 32,696 extracted samples, with a 50/50 distribution of malicious vs. benign samples, taken from a collection of roughly 110,000 recent executables.
The innovation of this dataset lies in the way the static analysis is performed. The framework built for the analysis and extraction of samples utilizes a containerized environment deployed on a Kubernetes cluster.
This framework does not only perform analysis of host-based attacks, but also simulates network based attacks and processes those results enabling researchers to have a single platform for both the exploration of network- and host-based attacks.

This thesis outlines the work needed to accommodate feature extraction tools in the current framework and provides an extensive analysis on the obtained dataset.
Additionally, some baseline machine learning models without optimisation are supplied to demonstrate the performance of ADAM.