Barrierefreiheit auf Drei: Veröffentlichen ohne Sprachbarrieren
- Jan Kersling
- 30. März
- 3 Min. Lesezeit
Aktualisiert: 1. Apr.
In diesem Interview sprechen wir mit Akshat Prakash, CEO von CAMB.AI, über den Einsatz von KI-Technologie zur Überwindung von Sprachbarrieren. Der beispielhafte Use Case, den wir uns genauer ansehen, ist die Übersetzung des Films Three, ein psychologischer Thriller von Nayla Al Khaja – und zwar so, dass Tonalität und Emotionen erhalten bleiben. Damit wurde Three zum ersten in den Emiraten produzierten Film, der in mehr als nur Arabisch und Englisch synchronisiert wurde.
„Die meisten Menschen auf der Welt sprechen kein Englisch – und trotzdem verdienen sie Zugang zu großartigen Inhalten.“
Was waren die Ideen und Motivationen hinter dem Projekt?
"Wir haben mit Nayla Al Khaja, der Regisseurin und Drehbuchautorin des Films, zusammengearbeitet. Unsere Mission: Einen in den Emiraten produzierten Film einem weltweiten Publikum zugänglich zu machen.
Mit unserer Technologie – einem KI-basierten Speech-to-Speech-Übersetzungssystem – können wir jegliche Form von Audio- oder Videoinhalten, ob Hörbücher, YouTube-Videos, Filme oder sogar Live-Sport, hyperrealistisch in mehrere Sprachen übersetzen, ohne dabei Tonfall, Emotionen, Sprecheridentität oder andere Merkmale zu verlieren.
Das ist entscheidend, weil es den Zugang zu Inhalten demokratisiert – so können viel mehr Menschen Inhalte verstehen. Die meisten Menschen weltweit sprechen Englisch nicht als Muttersprache. Dank unserer Technologie wurde Three der erste in den Emiraten produzierte Film, der auch in anderen Sprachen als Arabisch und Englisch verfügbar ist."
Wie lief der Entwicklungsprozess ab? An welchen Stellen kam KI zum Einsatz?
"Wie haben wir die Software entwickelt? Im Kern handelt es sich um fortgeschrittene generative KI. Seit sechs Jahren forschen wir im Bereich generativer KI – speziell Sprach-KI – und haben eigene Modelle entwickelt, die sich auf Spracherkennung und -wiedergabe in anderen Sprachen spezialisiert haben.
Wir haben zwei Hauptmodelle entwickelt und darauf aufbauend unsere Plattform gebaut – eine Art Editor-Studio. Man kann es sich vorstellen wie ein Adobe Premiere Pro, aber für KI-gestützte Synchronisation. Nutzer:innen können ein Video hochladen, ein Transkript generieren, es bearbeiten, das Voice-Over erzeugen, Feinschliff vornehmen und die finale Version herunterladen.
Die gesamte Technologie basiert auf generativer KI. Für das Training der Modelle benötigt man GPUs, große Datenmengen und das richtige Fachwissen.
Wir mussten passende Talente einstellen, GPUs beschaffen und mit Partnern kooperieren, um die notwendigen Daten zu erhalten. Der Prozess ist stark iterativ – es braucht viele Versuche, bis ein Modell funktioniert. Unser 12. oder 15. Versuch war der erste, der für eines unserer Modelle brauchbar war.
Auch nachdem ein Modell produktionsreif ist, folgen viele weitere Iterationen. Unsere aktuellen Modelle sind bei Version 6 – in den kommenden Jahren werden wir wahrscheinlich Version 10, 20 oder mehr erreichen."
„Es geht nicht nur um Dubbing. Es ist generative KI, die darauf trainiert ist, Sprache über Sprachgrenzen hinweg zu verstehen und neu zu erzeugen.“
Wie war das Feedback und wie habt ihr darauf reagiert?
"Das Feedback war durchweg positiv – besonders wegen der Fähigkeit unserer KI, Emotionen und Tonfall in den Übersetzungen zu erhalten.
Unsere Systeme werden in Bereichen wie Sport, Film und Content Creation eingesetzt. Neben Three haben wir auch mit den Australian Open zusammengearbeitet, wo Live-Kommentare mittels KI generiert wurden – was zu einer Vervierfachung der Zuschauerzahlen geführt hat."
Welche Pläne habt ihr für die Zukunft im Bereich KI-gestützte Content Creation?
"Obwohl wir vor allem für unsere Synchronisationslösungen bekannt sind, bietet unsere Plattform eine komplette Lösung für Übersetzung und Lokalisierung. Unternehmen, die unsere Plattform nutzen, können nicht nur Inhalte in verschiedene Sprachen übersetzen, sondern auch mehrsprachige Fan-Kommunikation, PR, Blogs und interne Schulungen organisieren.
Ein spannendes Produkt, an dem wir gerade arbeiten, heißt Chatterbox – eine Lösung für Echtzeit-Übersetzung von Gesprächen. Mit diesem Tool könntest du z. B. auf Französisch sprechen und ich auf Englisch – und wir würden uns gegenseitig in Echtzeit in unseren jeweiligen Sprachen hören.
Nachdem wir im B2B-Bereich große Erfolge erzielt haben, möchten wir nun auch stärker in den B2C-Markt expandieren."
Dieses Interview ist Teil von PANTA SPOTLIGHT, in dem wir spannende und innovative Anwendungsfälle aus dem KI-Bereich vorstellen und mit den Macher:innen über die Hintergründe ihrer Projekte sprechen.