TU Darmstadt / ULB / TUprints

Novel View Prediction Error as a Quality Metric for Image-Based Modeling and Rendering

Waechter, Michael (2017)
Novel View Prediction Error as a Quality Metric for Image-Based Modeling and Rendering.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
Dissertation_Michael-Waechter_final-publication.pdf - Accepted Version
Copyright Information: CC BY-NC-ND 4.0 International - Creative Commons, Attribution NonCommercial, NoDerivs.

Download (267MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Novel View Prediction Error as a Quality Metric for Image-Based Modeling and Rendering
Language: English
Referees: Goesele, Prof. Dr. Michael ; Scharstein, Prof. PhD Daniel
Date: 6 September 2017
Place of Publication: Darmstadt
Date of oral examination: 18 August 2017
Abstract:

Image-based modeling and rendering (IBMR) is a sub-discipline of visual computing whose objective it is to capture images of a scene in the real world, construct a model of the world using the captured image data, and use this model to synthesize images of the world from previously unobserved viewpoints. This so-called novel (or virtual) view prediction has traditionally been tackled from two sides: On one side the computer vision community has pursued the construction of geometric models from sets of images only. On the other side the computer graphics community has worked on producing photo-realistic renderings from hand-modeled, virtual scenes and has further come up with algorithms that allow for the synthesis of novel views from input photos of real-world scenes either directly without any geometric models or with approximate, hand-modeled geometry models. The wealth of different IBMR systems also brought in its wake various quality evaluation systems that are more or less tailored to the properties of specific IBMR systems. In recent years, computer vision and graphics have grown together, slowly approaching the goal of novel view prediction on scenes without restrictions. However, the fragmentation of evaluation systems has still not been overcome.

This thesis makes two main complementary contributions: We first present a novel texture mapping algorithm that assigns a static texture to polygonal 3D models, given images that are registered in the same coordinate frame as the model. Our texturing algorithm takes into consideration real-world scenes' properties such as illumination and exposure changes between images, non-rigid scene parts, unreconstructed occluders such as pedestrians, and images with pixel footprints that vary by orders of magnitude. We address the size (\ie, the number of images and the number of polygons in the geometry model) of real-world datasets with a novel Markov random field solver that solves the main bottleneck of our texturing framework orders of magnitude faster than related work. Conceptually, we can think of our texturing framework as closing the gap between image-based 3D reconstruction and photo-realistic rendering, thereby turning 3D reconstructions into full-fledged IBMR representations.

Second, we introduce an evaluation scheme for IBMR methods that is guided by the definition of IBMR: Novel view prediction error evaluates how well an IBMR algorithm predicts novel views by dividing all input images into training and test images, keeping the test images secret, giving the training images to the IBMR algorithm, letting it predict the test images, and comparing its predictions with the actual test images. In this thesis we verify that (if used in conjunction with suitable image comparison metrics) this scheme fulfills a range of basic, intuitive conditions. We further compare our scheme with traditional, geometric 3D reconstruction evaluation schemes, show in a user study how our scheme relates to human judgment of the quality of novel view predictions, and present a new, general IBMR benchmark based on our evaluation scheme.

Alternative Abstract:
Alternative AbstractLanguage

Image-based Modeling und Rendering (IBMR) ist eine Teildisziplin des Visual Computing, deren Ziel es ist Bilder in der Welt aufzunehmen, daraus ein virtuelles Modell der Welt zu konstruieren und dieses Modell zu benutzen, um Bilder der Welt aus der Sicht neuer Blickpunkte zu synthetisieren. Dieses Problem der sogenannten Novel (oder Virtual) View Prediction wurde traditionell von zwei Seiten angegangen: Auf der einen Seite haben Computer Vision-Forscher daran gearbeitet, die automatische Rekonstruktion von geometrischen Modellen nur basierend auf Photos zu ermöglichen. Auf der anderen Seite haben Computergraphiker daran gearbeitet, handmodellierte virtuelle Szenen photorealistisch zu rendern, und des Weiteren Algorithmen entwickelt, die das direkte Synthetisieren von Novel Views aus Eingabebildern entweder direkt ohne Geometriemodell oder unter Zuhilfenahme grober, handmodellierter Geometriemodelle ermöglichen. Die Vielfalt an unterschiedlichen IBMR-Systemen hat auch eine Vielfalt an Qualitätsevaluationssystemen, die mehr oder minder stark an die Eigenheiten der jeweiligen IBMR-Systeme angepasst sind, mit sich gebracht. In den letzten Jahren sind Computer Vision und Computergraphik zusammengewachsen und nähern sich langsam dem Ziel an, realistische Novel Views in Szenen ohne Restriktionen synthetisieren zu können. Die Fragmentierung der Evaluationssysteme ist bisher jedoch nicht überwunden worden.

Diese Arbeit leistet zwei komplementäre Hauptbeiträge: Zum Ersten präsentieren wir einen neuartigen Texture-Mapping-Algorithmus, der, gegeben ein Geometriemodell und gegen das Modell registrierte Bilder, das Modell mit den Bildern texturiert. Unser Algorithmus betrachtet dabei die Eigenschaften von Echtwelt-Szenen wie unterschiedliche Beleuchtung und Belichtung zwischen Bildern, bewegliche Szenenteile, nicht rekonstruierte Okkluder wie zum Beispiel Fußgänger und drastische Unterschiede zwischen den Pixel-Footprints verschiedener Bilder. Die Größe von Echtweltdatensätzen gehen wir mit einem neuartigen Markov-Random-Field-Solver an, der das Hauptnadelöhr unseres Texturierungsframeworks um Größenordnungen schneller löst als verwandte Arbeiten. Konzeptionell kann unser Texturierungsframework so betrachtet werden, dass es die Lücke zwischen bildbasierter 3D-Rekonstruktion und photorealistischem Rendering schließt und damit 3D-Rekonstruktionen zu vollwertigen IBMR-Repräsentationen macht.

Zum Zweiten führen wir eine Evaluationsmethode für IBMR-Repräsentationen ein, die sich die Definition von IBMR zunutze macht: Der Novel-View-Prediction-Fehler bewertet, wie gut ein IBMR-Algorithmus darin ist, Novel Views zu synthetisieren, indem man alle Eingabebilder in Trainings- und Testbilder aufteilt, die Testbilder geheim hält, die Trainingsbilder dem IBMR-Algorithmus zur Verfügung stellt, ihn die Novel Views vorhersagen lässt und seine Vorhersagen mit den geheimen Testbildern vergleicht. In dieser Arbeit verifizieren wir, dass diese Vorgehensweise (in Kombination mit geeigneten Bildvergleichsmetriken) gewisse grundlegende Eigenschaften erfüllt. Des Weiteren vergleichen wir unsere Evaluationsmethode mit traditionellen, geometrischen 3D-Rekonstruktionsevaluationsmethoden, zeigen in einer Benutzerstudie wie sich unsere Methode zu menschlichen Einschätzungen der Qualität von Novel-View-Predictions verhält und präsentieren einen neuen, generalisierten IBMR-Benchmark, der auf unserer Methode basiert.

German
URN: urn:nbn:de:tuda-tuprints-67803
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science
20 Department of Computer Science > Graphics, Capture and Massively Parallel Computing
Date Deposited: 07 Sep 2017 12:58
Last Modified: 16 Jul 2020 10:01
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/6780
PPN: 41631127X
Export:
Actions (login required)
View Item View Item