Interpreteerbare besluitvorming in diep versterkend leren met een prototype boomstructuur

Student:	Xander De Visch
Richting:	Master of Science in de industriële wetenschappen: informatica
Abstract:	Versterkend leren (eng: reinforcement learning) is een deeltak van machinaal leren waarbij agenten in omgevingen getraind worden op basis van signalen in de vorm van beloningen. De gedachtegang is zeer gelijkaardig aan het opvoeden van kinderen. Op basis van een vooraf opgesteld beloningsschema ontvangt een actor een beloning wanneer hij gewenst gedrag vertoont, of een straf in de vorm van een negatieve beloning wanneer hij ongewenste acties onderneemt. Door de omgeving te verkennen en te leren uit voorgaande acties gebonden met beloningen en straffen, leert de agent een bepaald gedrag aan. Het uiteindelijke doel is de agent een policy (staat-actie mapping) aan te leren die de beloning maximaliseert. Neurale netwerken worden vaak gebruikt om de optimale policy te bepalen, gezien het grote aantal mogelijke acties en toestanden in complexe omgevingen. Een populair model dat reeds succesvolle resultaten gekend heeft in het verleden, is het deep Q-network. Dit model is in staat om de waardefunctie direct te benaderen vanuit observaties in de pixelruimte met behulp van convolutionele neurale netwerken. De waardefunctie berekent de waarde in een bepaalde staat rekening houdend met de kans op toekomstige beloningen. Het probleem met deze aanpak is de black-box-natuur van convolutionele neurale netwerken die het moeilijk maakt om de aangeleerde policy te interpreteren en de redenen waarom keuzes genomen worden te evalueren. In deze thesis is er gekeken hoe de interpreteerbaarheid, verklaarbaarheid en transparantheid van dit model verbeterd kan worden door middel van een combinatie met de Neural Prototype Tree. Deze structuur bevat een boomstructuur van prototypes. Een prototype is een tensor in de latente ruimte die kan worden voorgesteld als een deel van een trainingsafbeelding. Door de waardefunctie te benaderen aan de hand van een aangepaste versie van de Neural Prototype Tree die getraind kan worden aan de hand van Q-waarden (waarden die aangeven hoe goed acties zijn indien uitgevoerd in een bepaalde staat), wordt een globaal interpreteerbare visualisatie verkregen die de optimale policy in kaart brengt. Aan de hand van de besluitvorming in de vorm van een visuele beslissingsboom, krijgt de gebruiker van het model een duidelijk zicht op de redenen waarom de policy kiest voor bepaalde acties in verschillende toestanden.
Abstract (Eng):	Reinforcement learning is a subfield of machine learning where agents are trained in environments based on signals in the form of rewards. The thought process is very similar to raising children. Using a reward scheme, an actor receives a reward when desired behavior is followed or a punishment in the form of a negative reward when actions are chosen that are not desired. By exploring the environment and learning from previous actions associated with rewards and punishments, the agent learns a certain behavior. The ultimate goal is to teach the agent a policy (state-action mapping) that maximizes the reward. Neural networks are often used to determine the optimal policy, given the large number of possible actions and states in complex environments. One popular model that has achieved successful results in the past is the Deep Q-network. This model is capable of directly approximating the value function from pixel space observations of the state using convolutional neural networks (CNNs). The value function calculates the value in a particular state, taking into account the probability of future rewards. The problem with this approach is the black-box nature of CNNs, which makes it difficult to interpret the learned policy and evaluate the reasons behind the choices made. In this thesis, there is explored on how the interpretability, explainability, and transparency of this algorithm can be improved by combining it with the Neural Prototype Tree. This structure contains a tree-like structure of prototypes. A prototype is a tensor in the latent space that can be represented as part of a training image. By approximating the value function using a modified version of the Neural Prototype Tree that can be trained based on Q-values (a value that represents how good an action is, taken at a state), a globally interpretable visualization is obtained that maps the optimal policy. By using a visual decision tree for decision-making, the user of the model gains a clear understanding of the reasons why the policy chooses certain actions in different states.