Efficiënte videoverwerking met adaptieve neurale netwerken

Student:Bert Matthys
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:In het veld van machine learning zijn diepe neurale netwerken tegenwoordig populair om allerhande problemen op te lossen. Ze worden frequent gebruikt in het veld van computervisie waarin computers worden getraind om semantische informatie uit afbeeldingen te extraheren. In deze masterproef wordt de efficiënte analyse van video door zulke netwerken behandeld. Deze technieken vragen miljoenen, zelfs miljarden berekeningen per afbeelding. Bij praktische toepassingen zijn er meestal beperkingen en vereisten zoals gelimiteerde hardware en de nood aan realtime verwerken van data, bijvoorbeeld bij het autonoom rijden van auto’s. Hier wordt het belang van efficiëntie duidelijk. Dit komt deels neer op het juist afwegen van snelheid tegenover nauwkeurigheid van een model voor het specifieke probleem. Het is echter ook mogelijk, door een slim ontwerp dat optimaal gebruik maakt van de data, om snelheid te verbeteren zonder veel nauwkeurigheid op te offeren. Opeenvolgende videoframes zijn meestal zeer gelijkaardig. Op het niveau van milliseconden blijven de objecten in de video typisch in een gelijkaardige regio in het beeld. Een naïeve implementatie zou elke frame apart analyseren en dus veel berekeningen herhalen op gelijkaardige visuele data. Deze masterproef bespreekt het concept van het gebruik van informatie uit vorige frames om efficiënter een resultaat te verkrijgen voor nieuwe frames. Een slim model zal minder berekeningen uitvoeren als er weinig verandering is tussen frames en meer berekeningen als de frame sterk verandert. Uitgemiddeld over alle frames zal het slimme model veel efficiënter werken dan het naïeve model. Dit potentieel tot efficiëntie wordt aangetoond met een implementatie voor het geval van objectdetectie in video’s opgenomen door een statische camera.
Abstract (Eng):Deep Learning with neural networks are currently very widespread in the field of machine learning to solve many different kinds of problems. They are frequently used in computer vision, in which computers are trained to extract semantic information from visual data such as images. In this master's thesis, the efficient analysis of video by such networks is discussed. These models require millions, even billions of calculations per image. With realistic applications usually come limitations and requirements such as limited hardware and the need for real-time processing of data, for example for the autonomous driving of cars. This is where the importance of efficiency becomes clear. This partly comes down to balancing speed versus accuracy of a model for the specific problem. However, it is also possible, through a smart design that makes optimal use of the data, to improve speed without sacrificing much accuracy. In video, consecutive frames are usually very similar. At the millisecond level, the objects in the video typically remain in a similar region in the image. A naive implementation would analyse each frame separately and thus repeat many calculations on similar visual data. this master's thesis discusses the concept of using information from previous frames to more efficiently obtain a result for new frames. A smart model will perform fewer calculations if there is little change between frames and more calculations if the frame changes strongly. Averaged over all frames, the smart model will be more efficient than the naive model. This potential for efficiency is demonstrated in object detection in videos recorded by a static camera.