Microsoft-Forscher stellten mit VASA-1 ein innovatives Modell für künstliche Intelligenz vor, das in der Lage ist, ein Standbild eines Gesichts und einen Ton aufzunehmen, um ein überzeugendes Video einer sprechenden Person zu erstellen. Die ersten Tests ließen nicht lange auf sich warten und eine Nachricht begann sich in den Netzwerken zu verbreiten. Mona Lisa ist Rapperin. Hätte Leonardo da Vinci das hören wollen?
VASA-1 wurde von Microsoft und „für Spiele“ entwickelt. Ein Bild einer Person und eine Audiospur genügen, der Rest wird gesungen. Nach Angaben des spanischen Medienunternehmens La Razón versuchte das Forschungsteam, Standbilder des Sprechens und Singens zu animieren, indem es die bereitgestellte Backup-Audiospur verwendete und dabei glaubwürdige Gesichtsausdrücke zeigte.
Microsoft hat VASA-1 aufgegeben.
Diese KI kann ein einzelnes Bild singen und aus einer Audionotiz deutlich sprechen. Ähnlich wie Alibabas EMO
10 wilde Beispiele:
1. Mona Lisa rappt Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi)
18. April 2024
In jeder Animation ändert sich der Gesichtsausdruck mit den Worten, um das Gesagte zu betonen. Trotz des realistischen Charakters der Videos stellen die Forscher fest. Bei näherer Betrachtung können Fehler aufgedeckt werden Und der Beweis, dass sie künstlich geschaffen wurden.
Die Wirksamkeit des Systems wurde deutlich, als ein Video, in dem Mona Lisa einen Rap-Song sang, sofort viral ging und gleichzeitig jeder technologische Fortschritt in der Szene zu widersprüchlichen Meinungen in sozialen Netzwerken führte.
Technische Details
Das Modelltraining umfasst eine breite Palette von Gesichtsvideos, die es VASA-1 ermöglichen, natürliche Bewegungen wie Augenzwinkern, Gesichtsausdrücke und Blicke zu erkennen. Obwohl die erstellten Videos die Realität zeigen, weisen sie dennoch Anzeichen von Künstlichkeit auf.
Microsoft betont, dass sein Modell ähnliche Tools übertrifft Ermöglicht den Dialog zwischen Menschen und Systemen der künstlichen Intelligenz und legt den Grundstein für die Echtzeitinteraktion mit realistischen Avataren.
Dieser technologische Fortschritt ist zwar aufregend, wirft jedoch wichtige ethische und regulatorische Fragen auf, die vor einer breiten Umsetzung geklärt werden müssen.
„Professioneller Twitter-Liebhaber. Musikfan. Zombie-Guru. Unheilbarer Bacon-Fan. Organisator. Reise-Fan. Amateur-Web-Experte.“
More Stories
Nicht neu kaufen: Ein Trick, um Speicherplatz auf dem Handy freizugeben, ohne Fotos, Videos oder Apps zu löschen
Diese Premium-Smartwatch von Google hat ihren Preis auf Amazon wie nie zuvor gesenkt
Wie die NASA die Kommunikation mit Voyager 1, dem am weitesten entfernten Raumschiff aller Zeiten, wiederherstellte