Het verbeteren van gezichtsherkenning op archiefvideo's met weinig metadata

Student:Jonas Spitaels
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:Het identificeren van de precieze voorkomens van personen in een videocollectie uit een archief kan een uitdagende en tijdrovende taak zijn als dit handmatig wordt gedaan, vooral wanneer er weinig metadata beschikbaar is. Dit proces vereist dat een expert alle gezichten op alle tijdstippen in die video’s nauwkeurig manueel labelt. Door gebruik te maken van gezichtsherkenningstechnologie kan dit annotatieproces worden versneld: voor elke video kunnen de verkregen embeddings van de op elkaar lijkende gezichten samen geclusterd worden. Wanneer er referentiegegevens beschikbaar zijn, kan automatische matching worden uitgevoerd door deze te vergelijken met de clusters van elke video. Het doel van dit werk is dan ook om handmatige gezichtsherkenning te vervangen door de efficiënte implementatie van een voorgetraind gezichtsherkenningsmodel samen met een clustering- en matching-pipeline. Resultaten tonen aan dat deze aanpak met gezichtsherkenning toelaat om zeer nauwkeurig de tijdstippen van de voorkomens van identiteiten weer te geven. Zekerheidsgraden en de opgave van een drempelwaarde kunnen de correctheid van deze tijdstippen helpen definiëren. Voor elke video kunnen de bekomen geannoteerde gegevens worden opgeslagen.
Abstract (Eng):Identifying the precise appearances of identities in a video collection from an archive, particularly when lacking sufficient metadata, can present a challenging and time-consuming task if performed manually. This process requires an expert to accurately label each face at various timestamps across the entire collection of videos. Leveraging face recognition technology can help speed up this annotation process by clustering similar face embeddings of identities for each video. When reference data is available, automatic matching can be performed by comparing it with the clusters of each video. The objective of this study is thus to replace manual face recognition by the efficient implementation of a pre-trained face recognition model together with a clustering and matching pipeline. Results demonstrate that this approach to face recognition enables the very precise retrieval of appearance timestamps. Degrees of certainty and the definition of a threshold can help define the correctnes of these timestamps. For each video, the annotated data can be saved.