Één van de meest fundamentele problemen in computer visie is beeldgebaseerde 3D reconstructie, waarbij we op basis van camera's die de scène waarnemen, haar 3D structuur wensen te schatten.
Dit heeft vele mogelijke toepassingen: misschien willen we het 3D model van de scène zodat we er mee kunnen interageren of erdoor kunnen navigeren (zoals het geval is bij robot-visie of autonome voertuigen), omdat we de scène vanuit nieuwe gezichtspunten willen weergeven (denk bijvoorbeeld aan virtuele avatars in een videoconferentie), of omdat we niet-triviale 3D metingen willen uitvoeren (bijvoorbeeld de automatische lengte- en oppervlaktemetingen van planten).
In dit werk bespreken we de volledige workflow van 3D reconstructie, van de opgenomen beelden tot het gereconstrueerde model.
We starten met een geparametriseerd wiskundig model van de camera's, en schatten hiervan dan de parameters: hun positie, oriëntatie en projectiemodel.
Met deze kennis over de camera's pogen we dan de 3D-naar-2D projectiestap van de camera's te inverteren.
Dat dit überhaupt mogelijk is, getuigen onze ogen: we zijn in staat ons een nauwkeurig beeld te vormen van de 3D wereld rondom ons op basis van slechts twee 2D beelden.
We vormen een uitgebreid beeld van de bestaande literatuur, en brengen verschillende verbeteringen aan: zowel qua snelheid als nauwkeurigheid. | |