Neuro-Evolutioneel Deep Reinforcement Learning voor Robotische Controle

Student:Nick Van Osta
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:De opkomst van Deep Reinforcement Learning (DRL) heeft geleid tot veel verbeteringen op het gebied van Artificiële Intelligentie (AI). De introductie van Artificiële Neurale Netwerken (ANNs) en Diepe Neurale Netwerken (DNNs) bracht de mogelijkheid om meer complexe omgevingen aan te pakken en verbeterde Reinforcement Learning (RL) technieken in het algemeen. Het toevoegen van DNNs kwam echter met de extra moeilijkheid om een geschikte netwerkarchitectuur te ontwerpen voor het specifieke RL probleem. Om deze last voor de gebruiker te verlichten stellen wij het gebruik van Neuro-Evolutie (NE) voor om de netwerkarchitectuur voor de gewenste omgeving automatisch te laten genereren. We hebben dit bereikt door het traditioneel DNN in het Deep Q-Learning (DQL) algoritme te vervangen door een model dat gegenereerd wordt door het Neuro-Evolution of Augmenting Topologies (NEAT) algoritme. Bovendien introduceren we technieken om het leerproces van het voorgestelde algoritme te stabiliseren. Met dit nieuwe algoritme hoeft de gebruiker niet langer zelf de netwerkarchitectuur te ontwerpen, ten koste van de stabiliteit en snelheid van het leerproces.
Abstract (Eng):The rise of Deep Reinforcement Learning (DRL) has resulted in many improvements in the field of Artificial Intelligence (AI). The introduction of Artificial Neural Networks (ANNs) and Deep Neural Networks (DNNs) brought forth the opportunity to tackle more complex environments and improved Reinforcement Learning (RL) techniques in general. However, the addition of DNNs came with the added difficulty of designing an appropriate network architecture for the specific RL problem. To alleviate this burden on the user we propose the use of Neuro-Evolution (NE) to generate the network architecture for the desired environment automatically. We have accomplished this by exchanging the traditional DNN in the Deep Q-Learning (DQL) algorithm with a model generated by the Neuro-Evolution of Augmenting Topologies (NEAT) algorithm. On top of that, we introduce techniques to stabilize the learning process for the proposed algorithm. This new algorithm removes the user's need to design the network architecture themselves, at the cost of learning stability and speed.