Loading…
Thumbnail Image

Method for the automated analysis, control and correction of stereoscopic distortions and parameters for 3D-TV applications

New image processing algorithms to improve the efficiency of stereo- and multi-camera 3D-TV productions

Zilly, Frederik

Hintergrund und Motivation für die in der vorliegenden Dissertation getätigten Forschungsarbeiten ist die Digitalisierung der Kino- bzw. Filmproduktion, die vollkommen neue Arbeitsabläufe auf Grundlage von neuen Bilderverarbeitungsalgorithmen erlaubt. Ein besonderes Augenmerk liegt dabei auf stereoskopischen 3D Produktionen und Multi-Kamera-Produktionen. Während eine Vielzahl an 3D Produktionen in den letzten Jahren in die Kinos kam, so blieb das zugrundeliegende Prinzip der stereoskopischen Wiedergabe das gleiche wie von Wheatstones [Wheatstone38] und Brewsters [Brewster56] vorgestellt, d.h. dem Betrachter werden für das linke und rechte Auge zwei Bilder mit leicht unterschiedlichen Perspektiven bereitgestellt. Wenn das Betrachten der 3D-Inhalte allerdings zu unnatürlichen Sehbedingungen führt, z.B. durch zu große Parallaxe, kann dies zu Unwohlsein bei der 3D-Wahrnehmung führen [IJsselsteijn00]. Folglich müssen besondere 3D-Produktionsregeln, wie in [Mendiburu08] und [Knorr12] beschrieben, beachtet werden, um hochwertige 3D-Inhalte zu produzieren. Dies beinhaltet eine genaue Kalibrierung der Kameras mit konsistenten elektronischen und optischen Parametern. Ferner müssen Stereo-Basis und Konvergenzebene der 3D-Szene angepasst werden. Ohne Hilfsmittel oder Assistenzsysteme kann die Auswahl geeigneter stereoskopischer Parameter wie in [Lipton82] beschrieben ein sehr mühevoller Vorgang sein, der gut ausgebildetes Personal benötigt und die Gesamtkosten einer Produktion ansteigen lässt [Buchs11]. Mit der Einführung von digitalen Kinokameras wurde es möglich, 3D-Videoströme zu analysieren und ggf. elektronisch zu korrigieren mittels stereoskopischer Bildverarbeitungsprozessoren (engl. „stereoscopic image processors”) [Zilly10b, Sony]. Diese vereinfachen die oben genannten Aufgaben und erlauben eine kostengünstigere 3D-Produktion bei gesteigerter Qualität des produzierten Materials. Vor diesem Hintergrund wird in der vorliegenden Dissertation ein neues Verfahren für die Schätzung der Kamerapose und Stereo-Rektifizierungsparameter basierend auf einem neuen Verfahren zur Schätzung der Fundamentalmatrix vorgestellt. Der Ansatz wird ferner auf trifokale Kamera-Systeme erweitert mithilfe eines neuen Verfahrens zur Schätzung des trifokalen Tensors. Ferner wird ein neuer Merkmalsdeskriptor (SKB), der für die Korrespondenzpunktanalyse von unkalibrierten Kameras eingesetzt werden kann, vorgestellt und mit bestehenden Verfahren wie SIFT, SURF und BRIEF verglichen. Die genannten neuen Verfahren werden kombiniert und um Funktionen zur Berechnung von stereoskopischen Parametern, sowie einer graphischen Benutzeroberfläche, erweitert. Das Stereoscopic Analyzer (STAN) genannte Assistenzsystem soll auch Nicht-Experten die Produktion von guten 3D Inhalten ermöglichen. Schließlich wird ein neues Verfahren zur Multi-Kamera-Disparitäts-Schätzung vorgestellt und auf einen Multi-Kamera-Aufbau zur Erstellung von tiefenbasierten 3D-Inhalten für verschiedene Endgeräte angewendet.
The background and motivation for the research performed within this thesis is the introduction of the Digital Cinema which allows for new workflows based on image processing algorithms. Thereby, the development of algorithms for stereoscopic 3D and multi-camera productions within the era of the Digital Cinema is of special interest. Several 3D productions have been released in the cinemas in the past years while the basic principle of 3D reproduction is still based on Wheatstone’s [Wheatstone38] and Brewster’s stereoscopic approach [Brewster56] where two views corresponding to two different viewing positions are presented to the viewer’s left and right eye. However, if the reproduced 3D content imposes unnatural viewing conditions when watched, e.g. due to an excessive amount of inherent parallax, an impaired 3D sensation can result which can even lead to visual fatigue and head-ache [IJsselsteijn00]. Consequently, specific 3D production rules as described in [Mendiburu08] and [Knorr12] have to be obeyed when high quality 3D content shall be produced. It includes a precise calibration of the two cameras with consistent electronic and optical parameters. Moreover, the stereo baseline and convergence distance have to be chosen according to the depth structure of the scene content. When performed without specific assistance systems, the calibration process and the choice of proper stereoscopic parameters as described by Lipton in [Lipton82] can be tedious tasks which require trained personnel and increase the overall production costs [Buchs11]. With the advent of digital cameras, it became possible to analyze and possibly correct the 3D signal electronically using dedicated stereoscopic image processors [Zilly10b, Sony] which facilitates the above mentioned tasks and allows for new 3D production workflows, possibly lowering the costs and improving the resulting quality. Against this background, within this thesis, a new and robust technique for camera pose estimation and rectification of uncalibrated stereo cameras based on a new method to estimate the fundamental matrix is proposed. The approach is subsequently enhanced towards trifocal setups involving a new estimation method for the trifocal tensor. To rectify the images acquired by uncalibrated cameras, a suitable feature detector is required. In this context, a new feature descriptor (SKB) is proposed and compared to existing descriptors such as SIFT, SURF or BRIEF. The different algorithms are combined, extended by new functions to calculate important stereoscopic parameters, and made accessible through an intuitive graphical user-interface which allows non-expert camera personnel to make use of it using an application which is called stereoscopic analyzer (STAN). Finally a new multi-camera disparity estimation workflow is proposed and applied to a multi-camera setup suitable for the generation of display agnostic 3D content.