Op coherentie gebaseerde technieken voor ad-hoc gedistribueerde microfoonclustering

Student:Martijn Meeldijk
Richting:Master of Science in de industriële wetenschappen: informatica
Abstract:Deze masterproef biedt een gedetailleerde verkenning van coherentie-gebaseerde technieken voor het clusteren van ad-hoc gedistribueerde microfoons. Het onderzoek richt zich op de ontwikkeling en verbetering van verschillende strategieën voor het clusteren van brongedomineerde microfoons, een kritische stap naar efficiënte bronscheiding. Het onderzoek introduceert en evalueert een recent voorgestelde methode die gebruik maakt van coherentie in het frequentiedomein (FD) om microfoonclusters te vormen. Deze aanpak wordt aangevuld met een nieuwe methode waarbij de coherentie wordt geschat in het tijdsdomein (TD), die verschillende voordelen biedt in termen van real-time aanpasbaarheid. Beide methoden worden grondig vergeleken, wat een uitgebreide analyse van deze technieken oplevert. De studie presenteert ook een uitgebreide evaluatie van zowel FD als TD op coherentie gebaseerde clustermethoden, waarbij ze worden vergeleken met methodes op basis van features zoals mod-MFCCs en speaker embeddings. Er werden simulaties uitgevoerd met verschillende microfoon- en bronposities in een realistische kamerakoestiek, beginnend met eenvoudigere scenario's en geleidelijk overgaand naar complexere. Deze aanpak biedt meer inzicht in de beperkingen en mogelijkheden van de voorgestelde clustermethoden. De studie beschouwt ook realistische scenario's waarbij signalen doorgaans worden gecodeerd en gedecodeerd met behulp van lossy audio-codecs. De robuustheid van de op coherentie gebaseerde clustermethoden wordt getest door de microfoonsignalen te coderen en te decoderen met de LC3plus-codec, met verschillende bitrates. De codec bleek geen grote invloed te hebben op de prestaties van FD coherentie. FD coherentie bleek in de meeste gevallen beter te presteren dan op features gebaseerde clustering. Hoewel TD coherentie momenteel ondermaats presteert in vergelijking met FD coherentie, is dankzij zijn aanpassingsvermogen en flexibiliteit verder onderzoek en verfijning de moeite waard.
Abstract (Eng):This master's thesis provides a detailed exploration of coherence-based methods applied to the clustering of ad-hoc distributed microphones. The research is centered around the development and enhancement of various strategies for clustering source-dominated microphones, a critical step towards efficient source separation. The study introduces and evaluates a recently proposed method that utilizes coherence in the frequency domain (FD) to form microphone clusters. This approach is complemented by a novel method where coherence is estimated in the time domain (TD), which offers several advantages in terms of real-time adaptability. Both methods are thoroughly compared, providing a comprehensive analysis of these techniques. The study also presents an extensive evaluation of both FD and TD coherence-based clustering methods, comparing them with feature extraction methods based on mod-MFCCs and speaker embeddings. Simulations were carried out using different microphone and source positions in realistic room acoustics, starting from simpler scenarios and gradually moving to more complex ones. This approach provides deeper insights into the limitations and potential of the proposed clustering methods. The study also considers real-world scenarios where signals are typically encoded and decoded using lossy audio codecs. The robustness of the coherence-based clustering methods is tested by encoding and decoding the microphone signals using the LC3plus codec, with varying bitrates. It was found that the codec did not seem to greatly affect the performance of FD coherence. It was found that FD coherence outperformed feature-based clustering in most cases. While TD coherence currently underperforms in comparison to FD coherence, its potential adaptability and flexibility make it a worthwhile area for further exploration and refinement.