Samenvatting

Acquisitie, compressie en rendering van multi-view diepte- en textuurvideo

Driedimensionale video, televisie (3D-TV) en de bijbehorende beeldvormingstechnieken staan in toenemende belangstelling bij de ontwikkeling van digitale videosystemen. Dit wordt geÔllustreerd door de opkomst van 3D schermen, coderingssystemen en 3D cameraopstellingen. Driedimensionale video met verschillende aanzichten (multi-view video) wordt meestal verkregen uit een set van gesynchroniseerde camera’s die dezelfde scene opnemen vanuit verschillende kijkrichtingen. In het bijzonder maakt deze techniek het mogelijk om als kijker zelf de kijkrichting te bepalen (free-view). Deze nieuwe toepassing heeft als eigenschap het interactief kiezen en genereren (renderen) van een virtueel kijkpunt naar de scene. Een 3D ervaring zoals bijvoorbeeld in 3D-TV, wordt verkregen als de representatie van de gegevens en het scherm het mogelijk maken om de diepte van de scene waar te nemen. Met 3D-TV kan de diepte van de scene worden waargenomen, terwijl het scherm tegelijkertijd verschillende kijkrichtingen van dezelfde scene laat zien. Om deze veelvoudige kijkweergave op een scherm op afstand te renderen, is een efficiŽnte overdracht en dus compressie (codering) van het meervoudige multi-view videosignaal nodig. Echter, bij multi-view video is er een grote intrinsieke hoeveelheid beelddata die ge(de-)codeerd en gereconstrueerd moet worden. In dit proefschrift wordt gestreefd naar een efficiŽnt en flexibel multi-view videosysteem, waarvan drie verschillende kernpunten worden behandeld. Ten eerste ontwikkelen we een algoritme voor het acquireren van een dieptesignaal vanuit een multi-view cameraopstelling. Ten tweede presenteren we efficiŽnte 3D renderingsalgoritmen voor een multi-view videosignaal. Ten derde worden coderingstechnieken voor 3D multi-view videosignalen besproken, die zijn gebaseerd op het gebruik van een expliciet dieptesignaal. Hierdoor is het proefschrift opgedeeld in drie stukken.

Het eerste deel (Hoofdstuk 3) beschrijft het probleem van 3D multi-view videoacquisitie. Multi-view videoacquisitie omvat het schatten en registreren van een 3D geometrische beschrijving van de scene. Een 3D beschrijving van de scene kan worden gerepresenteerd met behulp van een zogenaamd dieptebeeld, dat kan worden berekend door een triangulatie (het opdelen c.q. samenstellen in driehoeken) uit te voeren van de corresponderende pixels in de multi-view beelden. Aanvankelijk wordt het schatten van het dieptesignaal gebaseerd op slechts twee kijkrichtingen, en presenteren we het geometrisch basismodel dat de triangulatie van de corresponderende pixels mogelijk maakt tussen de kijkrichtingen. Daarna behandelen we twee reken-/optimalisatiestrategieŽn om corresponderende pixels te bepalen: een lokale en een ťťndimensionale optimalisatiestrategie. Ten tweede, om het duo-view geval te generaliseren, wordt een simpel geometrisch model geÔntroduceerd voor het schatten van diepte bij het gebruik van multi-view video. Gebaseerd op dit geometrisch model, geven we een nieuwe multi-view techniek om diepte te schatten, waarbij gebruik wordt gemaakt van een ťťndimensionale optimalisatiestrategie die (1) het ruisniveau in de geschatte dieptebeelden vermindert en (2) consistente dieptebeelden afdwingt over de verschillende kijkrichtingen.

Het tweede deel (Hoofdstuk 4) van het proefschrift behandelt het probleem van multi-view beeldreconstructie of rendering. Multi-view rendering genereert synthetische beelden die gebaseerd zijn op multi-view video. Eerst zijn twee verschillende renderingstechnieken onderzocht: een 3D beeldvervormingsmethode en een renderingstechniek gebruik makend van meshes. Elk van deze methoden heeft zijn beperkingen, zoals hoge rekencomplexiteit of lage beeldkwaliteit bij rendering. Om deze reden presenteren we vervolgens twee beeldgebaseerde renderingsalgoritmen met een verbeterde balans tussen complexiteit en kwaliteit. Eerst leiden we een alternatieve formulering af voor het reliŽf-textuur algoritme dat is uitgebreid tot de geometrie van multi-view video. Deze techniek heeft twee voordelen: hij vermijdt renderingsartefacten (“gaten”) in het synthetische beeld en hij is geschikt voor uitvoering op een standaard grafische computer (GPU). Vervolgens geven we een inverse mapping renderingstechniek met een eenvoudige en precieze herbemonstering van synthetische pixels. Experimentele vergelijkingen met de 3D beeldvervormingsmethode laten een verbetering van de renderingskwaliteit zien van 3.8 dB voor de reliŽf-textuur mapping en 3.0 dB voor de inverse mapping renderingstechniek.

Het derde deel van de dissertatie concentreert zich op de compressie van multi-view textuur- en dieptevideo (Hoofdstukken 5-7). In Hoofdstuk 5 wordt het H.264/MPEG-4 AVC standaardalgoritme voor videocompressie uitgebreid met de codering van multi-view video. In tegenstelling tot de Multi-view Video Coding (MVC) standaard van de MPEG groep die alleen de multi-view textuurbeelden codeert, comprimeert de onderzochte encoder zowel multi-view textuur- als multi-view dieptevideo. De uitbreiding van de standaard is gebaseerd op het gebruik van de correlatie tussen de verschillende camera kijkrichtingen. Daartoe zijn twee verschillende methoden voor predictiecodering van multi-view video onderzocht: een blokgebaseerde, voor dispariteit gecompenseerde, predictietechniek en een View Synthesis Prediction (VSP) schema. Waar VSP een nauwkeurig dieptebeeld nodig heeft, kan het blokgebaseerde voor dispariteit gecompenseerde predictieschema uitgevoerd worden zonder enige geometrische informatie. De voorgestelde encoder selecteert adaptief het meest geschikte voorspellingsschema, daarbij gebruik makend van een bitsnelheid-distortie criterium voor een optimale selectie voor de predictiemethode. De evaluatie van het adaptieve predictieschema geeft experimentele resultaten voor verschillende multi-view textuur- en dieptevideo’s, welke een kwaliteitsverbetering tot 0.6 dB voor de textuur opleveren en 3.2 dB voor de dieptesequenties, vergeleken met het eenzijdig uitvoeren van de H.264/MPEG-4 AVC predictie gebaseerd op dispariteit. Daarnaast wordt aandacht besteed aan de afweging tussen een willekeurig inspringen in en starten van een bepaalde kijkrichting, een door een gebruiker gekozen aanzicht en de efficientie van de codering. Experimentele resultaten die deze afweging illustreren en kwantificeren worden gepresenteerd. Hoofdstuk 6 is gewijd aan de compressie van een dieptesignaal en bespreekt een nieuw coderingsalgoritme voor dieptebeelden dat gebruik maakt van de speciale eigenschappen van dieptebeelden: gelijkmatige beeldgebieden, afgebakend door scherpe randen. Het algoritme modelleert deze gelijkmatige gebieden met geparametriseerde stuksgewijs lineaire functies en de scherpe randen door rechte lijnstukken, zodat het efficiŽnter is dan een conventionele transformatiegebaseerde encoder. Om de kwaliteit van het coderingssysteem te optimaliseren voor een gegeven bitsnelheid, brengt een speciale globale rate-distortie optimalisatie een evenwicht tussen de bitsnelheid en de kwaliteit van de signaal reconstructie. Voor typische bitsnelheden, zoals tussen 0.01 en 0.25 bits per pixel, hebben experimenten aangetoond dat de nieuwe dieptecompressie een standaard JPEG-2000 encoder met 0.6-3.0 dB overtreft. Hoofdstuk 7 behandelt een nieuw gemeenschappelijk diepte-textuur bittoewijzingsalgoritme voor de gezamenlijke compressie van textuur- en dieptebeelden. Het beschreven algoritme combineert de afzonderlijke Rate-Distortie (R-D) afhankelijkheden voor textuur- en dieptebeelden in een enkele, gezamenlijke R-D functie. Deze functie kan hierdoor een optimale gemeenschappelijke bittoewijzing definiŽren in relatie tot de verkregen renderingskwaliteit. Experimentele resultaten laten een geschatte winst van 1 dB zien in vergelijking met een compressie zonder de gezamenlijke optimalisatie voor bittoewijzing. Daarnaast kan het gemeenschappelijke R-D model eenvoudig worden geÔntegreerd in een multi-view H.264/MPEG-4 AVC encoder omdat het de optimale compressieinstelling oplevert met een beperkt budget aan rekenkracht.