Het reconstrueren van de genoomsequentie aan de hand van korte sequentiedata wordt bemoeilijkt door herhaalde regios in het genoom. Derde generatie sequentiedata en optische kaartdata bieden hier een mogelijke oplossing voor door het verschaffen van lange afstandsinformatie. In tegenstelling tot de korte sequentiedata, hebben derde generatie sequentiedata een hoog foutenpercentage, daardoor kunnen eerdere assemblagemethoden moeilijk worden toegepast. De optische kaartdata is geen sequentiedata, maar laat het verbeteren en valideren van gereconstrueerde genomen toe. Dit doctoraatsproefschrift introduceert OMSim, een simulator voor optische kaartdata die gebruikt kan worden in de ontwikkeling van nieuwe software.
Verder wordt Jabba voorgesteld, een methode om snel fouten in de lange sequentiedata te verbeteren met behulp van accurate korte sequentiedata. Jabba steunt op het seed-and-extend-paradigma, waarin maximale exacte overeenkomsten tussen de lange sequentiedata en een de Bruijn graaf gecombineerd worden met pseudomapping. Met synthetische en echte datasets wordt aangetoond dat Jabba doorgaans beter presteert dan state-of-the-art-alternatieven voor kleine tot middelgrote genomen. De methodologie uit Jabba werd verder verbeterd met een iteratief seeding algoritme, en een methode om het zoeken van overeenkomsten tussen een sequentie en een de Bruijn graaf te beperken tot een deelgraaf. | |