DNA bestaat uit twee ketens opgebouwd uit vier verschillende bouwstenen. De volgorde waarin deze bouwstenen voorkomen in een keten, de DNA-sequentie, codeert alle nodige functionaliteit voor het bestaan en de voortplanting van een organisme. Wanneer men de DNA-sequentie van een organisme wil bepalen, is men genoodzaakt verschillende, overlappende deelsequenties in te lezen. Nadien worden computationele technieken gebruikt om deze deelsequenties samen te voegen en zo het DNA te reconstrueren. Hiertoe kan de verzameling deelsequenties voorgesteld worden met een debruijngraaf, waarna men probeert de originele DNA-sequentie uit de graafstructuur af te leiden. In dit doctoraatswerk wordt onderzocht hoe we debruijngrafen kunnen modelleren met conditionele toevalsvelden. Deze probabilistische modellen laten ons toe de debruijngraaf voor te stellen met één coherent model, waaruit toch efficiënt conclusies getrokken kunnen worden. We tonen aan dat onze resultaten hierdoor accurater zijn dan die van verschillende state-of-the-art methodes voor DNA-sequentieanalyse. Zo detecteren we bijvoorbeeld beter fouten in het ingelezen DNA. We gebruiken dit model in een DNA-reconstructiemethode en tonen aan dat onze resultaten competitief zijn met die van de tot op vandaag meest gebruikte DNA-reconstructiemethoden. Op het einde van het doctoraatswerk breiden we dit model uit naar DNA-sequentiedatasets waarin DNA van meerdere (nauw verwante) organismen voorkomt. | |