Illumina-data wordt vaak gebruikt voor de-novo-genoomassemblage. Foutcorrectie-tools voorzien assemblagemethodes van een correctere input door mogelijke sequeneringsfouten op te sporen en te corrigeren. In een onderzoek naar de nauwkeurigheid van foutcorrectie-tools bemerkten we dat deze niet altijd in staat zijn fouten te identificeren in regios met een lage read-coverage in de nabijheid van veelvoorkomende repeats.
Wij introduceren BrownieCorrector, een foutcorrectie-tool enkel gericht op het corrigeren van reads die extreem repetitieve patronen bevatten. BrownieCorrector clustert read-paren in homogene read-groepen gebaseerd op informatie in de volledige read-sequentie en paired-end-read-informatie. Reads in een cluster worden onafhankelijk van de overige reads gecorrigeerd. Hierdoor wordt een consistente correctie bereikt voor alle reads binnen elke cluster.
Daarenboven stellen we BrownieAligner voor om korte Illumina-reads te aligneren op een de Bruijn-graaf. Hiertoe combineren we een seed-and-extendmethodologie met een branch-and-boundtechniek, teneinde de zoekruimte te verkleinen zonder in te boeten aan nauwkeurigheid. We stellen eveneens een Markovmodel van hogere orde voor om het aligneren tegen paden in de de Bruijn-graaf die niet overeenstemmen met een subsequentie van het originele referentiegenoom, te vermijden.
We vergelijken de performantie van BrownieCorrector en BrownieAligner met state-of-the-art-alternatieven op verscheidene synthetische en/of echte datasets. Onze resultaten bevestigen dat beide tools doorgaans beter presteren.
| |