Het genetisch materiaal van de mens bestaat uit DNA dat kan worden voorgesteld als een sequentie van ongeveer 3 miljard letters ACGT. In een 13 jaar durend project (1990-2003) dat 3 miljard USD kostte, werd het menselijk genoom voor de eerste maal volledig in kaart gebracht. Sindsdien is de technologie sterk geëvolueerd waardoor sequentiedata kan worden geproduceerd in slechts enkele dagen tijd, en dit voor een veel lagere kostprijs van ongeveer 1000 USD.
Deze ruwe data wordt gebruikt om met behulp van de computer verschillen of varianten met een referentiegenoom op te sporen. Deze varianten maken elk individu uniek maar kunnen tevens de oorzaak zijn van ziektes. Het snel en accuraat detecteren en analyseren van deze varianten is bijgevolg van belang voor een steeds groter wordend aantal medische toepassingen. Echter, met één CPU core duurt het 2 tot 3 weken om deze varianten te identificeren. In dit doctoraat wordt Halvade geïntroduceerd, software die in staat is om met behulp van supercomputers deze rekentijd te reduceren tot anderhalf uur. Halvade maakt hiervoor gebruik van het MapReduce programmeermodel. Gebruikmakend van Spark werd er tevens een bijhorend platform gemaakt dat in staat is grote datasets varianten te analyseren. | |