Master Thesis MSTR-0011

BibliographyRuf, Boitumelo: Ein echtzeitnaher Ansatz für Structure-from-Motion.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 11 (2015).
128 pages, german.
CR-SchemaI.2.10 (Vision and Scene Understanding)
I.4.8 (Image Processing and Computer Vision Scene Analysis)
G.1.6 (Numerical Analysis Optimization)
Abstract

Zusammenfassung ~~~~~~~~~~~~~~~

In den letzten Jahren haben dreidimensionale Modelle im alltäglichen Geschehen an Bedeutung gewonnen. So zum Beispiel im Zusammenhang mit Fahrerassistenzsystemen oder der Navigation von autonomen Fahrzeugen, wie Autos oder unbemannten Luftfahrzeugen (UAVs). Dreidimensionale Modelle können aber auch zur Planung und Überwachung von schwer zugänglichen und unbekannten Gebieten genutzt werden.

Im Rahmen dieser Arbeit ist ein Framework zur echtzeitnahen 3D-Rekonstruktion mittels Structure-from-Motion umgesetzt worden. Das System ist primär für die Rekonstruktion von urbanen Gebieten auf Basis von Luftaufnahmen vorgesehen. Da sich diese Arbeit lediglich der dichten Rekonstruktion widmet, wurde vorausgesetzt, dass die Eingangsdaten in Form von Einzelbildern mit entsprechenden Kameraposen gegeben sind. Auf Basis dieser Einzelbilder und Posen, führt das umgesetzte Framework eine dichte Tiefenschätzung für einzelne Keyframes der Eingangssequenz durch. Die resultierende Tiefenschätzung wird in einzelnen Tiefenkarten gespeichert. Diese können anschließend fusioniert und in ein dreidimensionales Modell projiziert werden. Die globale Fusion und Modellerstellung ist ebenfalls nicht als Teil der Arbeit vorgesehen.

Um eine echtzeitnahe Berechnung gewährleisten zu können, erfolgt die Tiefenschätzung in zwei Schritten: Im ersten Schritt wird eine Tiefenkarte On-the-fly berechnet. Als zweiter Schritt wird bei Bedarf die spätere Offline-Berechnung eines detaillierten Modells durchgeführt. Für die On-the-fly Berechnung wird ein Plane-Sweep-Verfahren verwendet, das eine Abtastung der Szene mit unterschiedlichen Ebenenorientierungen erlaubt. Dies soll dabei helfen verschiedene Orientierungen der Objekte und Geländeformen besser zu rekonstruieren. Für die offline durchgeführte Verfeinerung der Tiefenkarte wird ein Variationsansatz auf Basis der Total-Generalized-Variation (TGV) zweiter Ordnung verwendet. Die TGV erlaubt eine Begünstigung von affinen Funktionen innerhalb des Models, wodurch geneigte Oberflächen präziser Rekonstruiert werden können.

Abschließend wird das umgesetzte System mit entsprechenden Benchmarks getestet und evaluiert. Die Tests werden auf einer leistungsstarken Desktop-Hardware durchgeführt. Zur Leistungssteigerung werden die Berechnungen parallelisiert und auf einer Nvidia GeForce GTX 980 ausgeführt. Die Auswertung auf gegebener Hardware zeigt, dass das On-the-fly Plane-Sweep-Verfahren durchaus echtzeitfähig ist. Zudem werden anhand der Evaluation verschiedene Erkenntnisse gewonnen, die für die Weiterentwicklung und Verwendung des Systems wichtig sind.

Abstract ~~~~~~~~

In the past few years, 3d-models have received an increasing importance in everyday events. For example in the context of driver assistance systems or navigation of autonomous vehicles, such as cars or unmanned aerial vehicles (UAVs). In addition, 3d-models can also be used for planning and monitoring of operations, in remote and unknown areas.

This thesis is concerned with the implementation of a framework for near real-time 3d-reconstruction as part of Structure-from-Motion. The system is primarily intended for the reconstruction of urban areas based on aerial imagery. As this work only attends the problem of dense 3d-reconstruction, the camera poses to the corresponding frames are part of the given input data. Based on these images and poses the framework performs a dense reconstruction for single keyframes within the input sequence. The resulting depth estimations are stored in depthmaps that are associated with these keyframes. These depthmaps can then be used to project and create a global 3d-model of the reconstructed scene. The problem of global fusion and projection of the depthmaps is not part of this thesis.

To guarantee the near real-time performance, the depth estimation is performed in two successive steps: The first step performs a live reconstruction and computes the depthmap on-the-fly. In the second step, the initially computed depthmap is refined into a more detailed model. This refinement is performed offline. For the live reconstruction in step 1, a Plane-Sweep method is used that can sample the scene with different plane orientations and sweeping directions. This allows a better reconstruction of different orientations in the scene. The offline refinement in step 2, is performed with a second order Total-Generalize-Variation (TGV) method. The TGV fits affine functions into the model, which allows the reconstruction of slanted surfaces.

Finally the implemented framework is tested and evaluated on appropriate benchmarks. This testing is performed on a powerful desktop hardware. In order to increase the performance the algorithms are parallelized and run on a Nvidia GeForce GTX 980. The evaluation on given hardware shows, that with the Plane-Sweep method the depthmaps are computed in real-time. Furthermore, the evaluation reveals a number of insights that are to be considered for the further improvements and use of the implemented system.

Full text and
other links
PDF (14288544 Bytes)
Department(s)University of Stuttgart, Institute of Visualisation and Interactive Systems, Visualisation and Interactive Systems
Superviser(s)Tobias, Schuchert; Bruhn, Andrés
Entry dateMay 11, 2015
   Publ. Computer Science