Het voorbije decennium heeft diep machinaal leren doorbraken geforceerd in verschillende domeinen. Verscheidene voorspellingsopdrachten (bv. beeldherkenning) worden vandaag de dag voltooid met een lagere foutenlast dan de mens. Diep machinaal leren doet dit voornamelijk door het verwerken van grote hoeveelheden data. Moleculaire biologie is één van de onderzoeksvelden waarin data in steeds grotere hoeveelheden beschikbaar zijn. In dit domein wordt onderzoek verricht naar de structuur, samenstelling, en interacties van DNA-, RNA-, en eiwitmolecules. Interessante informatie extraheren uit die grote hoeveelheden aan data is echter niet vanzelfsprekend. In deze dissertatie wordt onderzocht in welke mate convolutionele neurale netwerken aangewend kunnen worden om relevante informatie uit DNA- en eiwitsequenties te halen. Hiervoor werden structurele voorspellingsopdrachten op DNA (predictie van splits- en translatiestartplaatsen) en functionele voorspellingsopdrachten op eiwitten (predictie van Gene Ontology-klassen, toxiciteit, en secreteerbaarheid) onderzocht. Naast de vooruitgang in predictieve nauwkeurigheid, ligt de nadruk in deze dissertatie grotendeels op de interpretatie van de bekomen voorspellingen. Er wordt getracht te begrijpen waarom een beslissing genomen wordt, welke delen in de sequenties belangrijk zijn, en of dit biologisch te verantwoorden valt. | |