Das rätselhafte, gemalte Lächeln der "Mona Lisa" ist auf der ganzen Welt bekannt, aber dieses berühmte Gesicht zeigte kürzlich dank der künstlichen Intelligenz (KI) eine erstaunliche neue Ausdrucksbreite.
In einem Video, das am 21. Mai auf YouTube geteilt wurde, zeigen drei Videoclips beunruhigende Beispiele der Mona Lisa, während sie ihre Lippen bewegt und den Kopf dreht. Sie wurde von einem Faltungsnetzwerk geschaffen - einer Art KI, die Informationen wie ein menschliches Gehirn verarbeitet, um Bilder zu analysieren und zu verarbeiten.
Die Forscher trainierten den Algorithmus, um die allgemeinen Formen der Gesichtsmerkmale und ihr Verhalten relativ zueinander zu verstehen und diese Informationen dann auf Standbilder anzuwenden. Das Ergebnis war eine realistische Videosequenz neuer Gesichtsausdrücke aus einem einzigen Bild.
Für die Mona Lisa-Videos "lernte" die KI die Gesichtsbewegung aus Datensätzen von drei menschlichen Probanden und erzeugte drei sehr unterschiedliche Animationen. Während jeder der drei Clips noch als Mona Lisa erkennbar war, verliehen Variationen im Aussehen und Verhalten der Trainingsmodelle den "lebenden Porträts" unterschiedliche "Persönlichkeiten", Egor Zakharov, Ingenieur am Skolkovo-Institut für Wissenschaft und Technologie, und das Samsung AI Center (beide in Moskau), erklärt im Video.
Zakharov und seine Kollegen erstellten auch Animationen aus Fotos von Kulturikonen des 20. Jahrhunderts wie Albert Einstein, Marilyn Monroe und Salvador Dali. Die Forscher beschrieben ihre Ergebnisse, die nicht von Experten begutachtet wurden, in einer Studie, die online am 20. Mai im Preprint-Journal arXiv veröffentlicht wurde.
Das Produzieren von Originalvideos wie diesen, die als Deepfakes bezeichnet werden, ist nicht einfach. Menschliche Köpfe sind geometrisch komplex und hochdynamisch; 3D-Modelle von Köpfen haben "zig Millionen von Parametern", schrieben die Autoren der Studie.
Darüber hinaus ist das menschliche Sichtsystem laut der Studie sehr gut darin, "selbst geringfügige Fehler" in 3D-modellierten menschlichen Köpfen zu identifizieren. Etwas zu sehen, das fast menschlich aussieht - aber nicht ganz - löst ein Gefühl tiefen Unbehagens aus, das als unheimlicher Taleffekt bekannt ist.
AI hat zuvor gezeigt, dass es möglich ist, überzeugende Deepfakes zu erzeugen, aber es waren mehrere Winkel des gewünschten Motivs erforderlich. Für die neue Studie führten die Ingenieure die KI in einen sehr großen Datensatz von Referenzvideos ein, die menschliche Gesichter in Aktion zeigen. Die Wissenschaftler ermittelten Gesichtspunkte für das Gesicht, die für jedes Gesicht gelten, um dem neuronalen Netzwerk das Verhalten von Gesichtern im Allgemeinen beizubringen.
Anschließend trainierten sie die KI darin, die Referenzausdrücke zu verwenden, um die Bewegung der Merkmale der Quelle abzubilden. Dies ermöglichte es der KI, eine Deepfake zu erstellen, selbst wenn nur ein Bild zur Verfügung stand, berichteten die Forscher.
Und mehr Quellbilder lieferten ein noch detaillierteres Ergebnis in der endgültigen Animation. Videos, die aus 32 Bildern und nicht nur aus einem erstellt wurden, erzielten in einer Benutzerstudie "perfekten Realismus", schrieben die Wissenschaftler.