Wenn CGI-generierte Gesichter nicht mehr von echten zu unterscheiden sind

News

Als Gollum in der Filmtrilogie "Herr der Ringe" zu sehen war, galt dies als Höhepunkt der Motion-Capture-Performance. Seitdem sind 16 Jahre vergangen und einiges ist passiert.

(Source: Youtube - Ninja Theory - Cubic Motion)

2016 stellte die britische Spielschmiede Ninja Theory an der Game Developers Conference (GDC) in San Francisco das Videospiel "Hellblade: Senua's Sacrifice" vor. Studiodirektor Tameem Antoniades sagte auf der Bühne, dass er und sein Team die Protagonistin in dem Spiel so glaubwürdig wie möglich erstellen wollten. Um die Gesichtszüge der Spielheldin möglichst real darzustellen, hätten sie mit Fachleuten aus diversen Branchen zusammengearbeitet, darunter das britische Computergrafikunternehmen Cubic Motion.

Bevor der Trailer abgespielt wurde, sagte Antoniades: "Wenn Sie gut hinschauen, bemerken Sie, dass etwas an unserer Protagonistin seltsam lebendig wirkt."

In dem Videoclip sahen die Zuschauer die Hauptfigur in Aktion. Auf einem zweiten Bildschirm waren die Aufnahmen der Motion-Capture-Performerin zu sehen, die der Rolle mit Körper- und Gesichtsperformance Leben eingehaucht hat. Mitten im Clip sagte Antoniades: "Cut!" Die Figur im Videospiel schaute verwirrt um sich und fragte, wer das gesagt habe. Die Musik im Clip verstummte und Antoniades führte aus: "Wenn Sie auf diese Seite der Bühne schauen, sehen Sie, dass Melina, unsere Schauspielerin, gerade die gesamte Szene in Echtzeit performt hat." Die Bewegungen der Schauspielerin wurden nicht wie üblich im Voraus aufgenommen. Das Team wandelte die Körper- und Gesichtsbewegungen in Echtzeit in fertige gerenderte Bilder um und bettete sie in den Clip ein, der dem Publikum ein fertiges, vorgefertigtes Produkt vorgaukelte.

Seither sind drei weitere Jahre der Entwicklung vergangen. Cubic Motion beteiligte sich mit seiner Motion-Capture-Technologie an vielen weiteren Projekten, etwa für Videospiele wie "Anthem", "God of War" und "Call of Duty: WWII".

Den Gesichtsausdruck in Echtzeit verarbeiten

Digital Trends führt in einem Bericht über die Motion-Capture-Technologie die Entwicklung der vergangenen Jahre aus und schreibt, wo sie in Zukunft eingesetzt werden könnte.

Bei herkömmlichen Motion-Capture-Aufnahmen tragen die Schauspieler formangepasste Körperanzüge, die mit dutzenden von winzigen Punkten bedeckt sind. Diese LEDs oder Objekte, die an kleine Ping-Pong-Bälle erinnern, werden als Marker bezeichnet. Sie dienen dazu, Animatoren Referenzpunkte für die Verfolgung der Bewegung eines Körpers im dreidimensionalen Raum zu geben. Nach diesem Aufnahmeprozess können die Animatoren ihren gewünschten Charakter erschaffen.

Der Ansatz von Cubic Motion ist anders. Das Unternehmen habe eine Technologie ohne Marker für die Echtzeit-Verfolgung von Modellen entwickelt. Es könne die Modelle, sofort in robuste, fertig gerenderte Videos umwandeln, die mit 60 Bildern pro Sekunde laufen. Dabei handle es sich um maschinelle Lernalgorithmen, die in der Lage seien, ein Bild eines Gesichts aufzunehmen und in seine Bestandteile zu zerlegen, die verschiedenen Elemente digital zu markieren und mit einer hohen Detailtiefe zu erfassen.

"Als Andy Serkis Gollum spielte, wurde er mit Hilfe von Motion Capture verfolgt, bei dem er mehrere Marker auf seinem Gesicht tragen musste", führt Andy Wood, Präsident von Cubic Motion, im Bericht von Digital Trends aus. "Das Team hat einen atemberaubenden Job gemacht, aber es gibt Grenzen. Man kann zum Beispiel keine Punkte für Marker auf die Augen der Menschen setzen und die Zungen lassen sich auch nicht verfolgen." Um den gewünschten Effekt zu erzielen, sei ein riesiges Team von Künstlern erforderlich, um Dinge wie die Augenbewegungen in Handanimation zu realisieren, da diese nicht verfolgt werden könnten. "Mit unserem markerlosen Tracking kann jeder Ausdruck vom Augenzwinkern bis zur Pupillenerweiterung aufgezeichnet werden - und das in Echtzeit."

Wie lässt sich die Technologie nutzen?

Animateure sollen durch das Echtzeitverfahren nicht nur Kosten sparen können. Denkbar scheint eine Zukunft, in der jeder in hoher Genauigkeit gescannt, am Reisbrett reproduziert und in beträchtlicher Detailtreue in digitale Welten gebracht werden kann. Bei Spielen liesse sich etwa der Spieler scannen, um ihn mit einer bisher nicht denkbaren Fotogenauigkeit in ein Spiel einzufügen. Ein weiteres denkbares Szenario ist ein virtueller Avatar eines Arztes, etwa über Augmented oder Virtual Reality.

Die Echtzeit-Gesichtserfassung von Cubic Motion liegt derzeit weit ausserhalb der finanziellen Möglichkeiten des täglichen Verbrauchers. Die Self-Scanning-Technologie ist mit einer viel geringeren Genauigkeit aber schon heute auf Smartphones zu finden. Die Modelle der iPhone-X-Serie verfügen etwa über Vergleichbares, wenn sie Animojis und Memojis anhand der Bewegungen des Benutzers machen.

Wie echt wirkt es?

Die CGI-Gesichter von Cubic Motion wirken heute beeindruckend lebensnah. Auf die Frage, ob man schon bald CGI-generierte Gesichter nicht mehr von echten unterscheiden könne, gibt sich Wood optimistisch: "Auf alles, was wir heute als digital real betrachten, werden wir in ein paar Jahren wahrscheinlich mit anderen Augen zurückblicken. Wir werden Dinge erkennen können, die sich verbessern liessen", sagte Wood. "Aber die Reise ist jetzt so weit fortgeschritten, dass es sehr offensichtlich ist, dass wir an diesen Punkt gelangen werden."