So nutze ich Künstliche Intelligenz (KI) in meinem Arbeitsalltag

Das Thema Künstliche Intelligenz spaltet die Gesellschaft. Entweder ist man dafür oder dagegen. Aber ist KI wirklich so gefährlich für uns, die wir in der Übersetzungs- und Kreativbranche arbeiten? Wird KI uns ersetzen und unsere Arbeit bald ohne unser Zutun erledigen? Alles Neue macht zunächst einmal Angst. Deshalb sollten wir uns an dieser Stelle lieber fragen, wie wir KI einsetzen können, dass sie uns Vorteile bringt. Denn so neu ist die KI-Technologie gar nicht. Sie ist nur derzeit in aller Munde und vor allem in den sozialen Medien ein Thema, weil die Entwicklung von Künstlicher Intelligenz in einem wahnsinnigen Tempo voranschreitet. Und das allein in den letzten 10 Jahren.

Eine KI-Technologie, die in den letzten Jahren große Fortschritte gemacht hat, ist die Spracherkennung. Dabei handelt es sich um eine Technologie, mit der gesprochene Sprache von einem Computer oder einem anderen Gerät erkannt und in digitalen Text oder Befehle umgewandelt werden kann.

Ich verwende KI-Spracherkennung schon seit über einem Jahr in meiner täglichen Arbeit: hauptsächlich für Sprache-zu-Text-Transkriptionen und Video-Untertitelungen. Auch privat nutze ich gerne Sprachbefehle und digitale Assistenten, zum Beispiel wenn ich nicht am Computer sitze oder die Hände nicht frei habe und schnell Informationen brauche.

Wie Spracherkennung funktioniert, wie man mit kostenlosen Tools wie CapCut schnell und einfach Untertitel erstellen kann und warum ich für qualitativ hochwertige deutsche Untertitel und übersetzte Untertitel lieber auf ein professionelles Tool wie Adobe Premiere Pro zurückgreife: Darum geht es in meinem Blogbeitrag. Außerdem erfährst du, was du bei der Arbeit mit Spracherkennung unbedingt beachten solltest.

Mein allererstes Mal: Spracherkennung 1.0

Ich sitze im Auto neben dem Mann meiner Cousine, einem waschechten Sachsen aus Freital. Er hat ein Headset am Ohr, das mit seinem Handy gekoppelt ist. Plötzlich höre ich, wie er im breitesten Sächsisch „Schwiegermutter“ ins Mikrofon ruft. Ich bin beeindruckt: Ein sächsischer Sprachbefehl löst den Anruf bei seiner Schwiegermutter aus.

Was ist daran so besonders, fragst du dich vielleicht … Geräte per Sprache zu steuern ist doch nichts Neues?

Aus heutiger Sicht schon, aber vor 20 Jahren war das noch eine kleine Sensation. Denn das Mobiltelefon war noch kein mobiler Alleskönner wie heute die Smartphones: Sein Handy war ein Siemens S40 mit implementierter Voice-Dialing-Funktion.

20 Rufnummern von Personen aus der Kontaktliste konnte man ein beliebiges Wort – nicht unbedingt den Namen – auf dem Gerät zuweisen und dann per Sprachbefehl anrufen. Einziger Nachteil: Das Siemens S40 verstand nur ihn und seine sächsischen Sprachbefehle.

Es handelte sich dabei um eine sprecherabhängige Spracherkennung. Diese wurde vor dem Einsatz auf die Aussprache des Sprechers trainiert.

Ich hätte also auf Hochdeutsch keinen einzigen Anruf von seinem Handy per Sprachbefehl auslösen können.

Hey Siri, Ok Google, Alexa & Co

2007 wird die Firma Siri Inc. in Finnland gegründet. Bereits im April 2010 kauft Apple die Firma und stellt im Oktober 2011 die Spracherkennungssoftware Siri für das iPhone 4s vor. Siri ist ein sprachgesteuerter digitaler Assistent, der zunächst auf dem iPhone und später auf anderen Apple-Geräten verfügbar ist.

Mit Siri kann man Anrufe tätigen, Textnachrichten senden, Musik abspielen, Erinnerungen erstellen, Notizen machen, das Wetter abfragen, Wegbeschreibungen abrufen und vieles mehr. Das einzige, was du tun musst, ist deine Frage mit „Hey Siri“ starten. Dazu muss Siri aktiviert sein. Bei neuen Geräten ist Siri automatisch aktiviert. Es sei denn, du entscheidest dich während des Einrichtungsprozesses ausdrücklich gegen die Verwendung von Siri.

Manchmal komme ich mit Siri nicht weiter. Dann frage ich Alexa.

Meine Alexa Lieblingsbefehle sind:

  • „Alexa, welche Kalenderwoche haben wir?“
  • „Alexa, spiel Italo Pop.”
  • „Alexa, stell einen Timer für 10 Minuten.“
  • „Alexa, lösch alles, was ich heute gesagt habe.“

Siri, Alexa & Co. nutzen sprecherunabhängige Spracherkennungstechnologien und müssen nicht mehr trainiert werden. Jede:r kann also mit dem Gerät sprechen. Manche scheitern auch an Siri und Alexa. Eindeutig im Vorteil sind jedoch Sprecherinnen und Sprecher mit einer präzisen Aussprache.

Transkription und Video-Untertitelung

Viele Unternehmer:innen, Digital Creators und Selbstständige nutzen Videos für ihr Online-Business, um sichtbarer zu werden, mehr Reichweite zu bekommen oder ihre Produkte besser zu verkaufen. Damit möglichst alle von den Videos profitieren können, sollten diese immer mit Untertiteln versehen sein oder im Videoplayer die Option bieten, Untertitel einzublenden.

Denn Videos mit Untertiteln helfen nicht nur gehörlosen Menschen, sondern auch Nicht-Muttersprachlern, die in gesprochener Sprache nicht alles auf Anhieb verstehen, oder Smartphone-Nutzern ohne Kopfhörer, die ihre Mitreisenden nicht stören wollen.

Noch vor wenigen Jahren war die Untertitelung eine mühsame und zeitaufwändige Arbeit. Für die Erstellung einer Transkription war es notwendig, das Video in voller Länge anzusehen und gleichzeitig die gesprochene Sprache manuell zu tippen.

Glücklicherweise gibt es heute eine Reihe von Tools, die KI-gestützte Untertitelung verwenden, um das gesprochene Wort automatisch zu erkennen und in Text umzuwandeln. Dadurch wird der Zeitaufwand für die Erstellung von Untertiteln erheblich reduziert und gleichzeitig die Genauigkeit verbessert.

Kostenlos & sehr beliebt: CapCut für TikToks und Reels

Inzwischen gibt es verschiedene Programme, mit denen Untertitel automatisch erzeugt werden können.

Ein kostenloses Tool ist zum Beispiel der Video-Editor CapCut, mit dem man Untertitel für kurze Videos erstellen kann. Besonders beliebt ist das Tool für TikTok-Videos und Instagram-Reels.

Dazu lädt man zunächst den Videoclip in die App. In der Timeline gibt es einen Button „Automatische Untertitel”. Es öffnet sich ein Menü, in dem du die Sprache auswählen kannst, die transkribiert werden soll. Erst dann kannst du deine Untertitel mit Zeitstempel generieren. Je nach Länge des Videos dauert das ein paar Sekunden. Sobald die automatischen Untertitel erstellt worden sind, siehst du sie in Textform als separate Textblöcke unter der Videospur.

Was in der App bei den deutschen Untertiteln nicht so gut funktioniert, ist die Rechtschreibung, die Kommasetzung und vor allem die Groß- und Kleinschreibung. Diese Dinge müssen im Nachhinein manuell angepasst werden. Leider sieht man im Netz immer wieder viele Videos mit automatisch generierten Untertiteln, bei denen diese Korrekturen nicht gemacht wurden und die voller Fehler sind.

Der nächste Schritt ist die Gestaltung der Untertitel: Es können verschiedene Schriftarten, Stile, Effekte, Farben und Animationen gewählt werden. Die Untertitel sollten gut lesbar sein. Bei der Auswahl des Stils ist darauf zu achten, dass der Text einen ausreichenden Kontrast zum Video hat. Um einen ausreichenden Kontrast zu erreichen, kann schwarze Schrift auf weißem Hintergrund oder weiße Schrift auf schwarzem Hintergrund gewählt werden.

Stell die richtige Sprache ein!

Die CapCut-App für Smartphones unterstützt aktuell folgende Sprachen: Arabisch, Englisch, Japanisch, Koreanisch, Chinesisch, Indonesisch, Malaiisch, Vietnamesisch, Thailändisch, Deutsch, Italienisch, Französisch, Niederländisch, Portugiesisch, Rumänisch, Türkisch und Russisch.

Vor einigen Tagen hat Stephan Park, ein Copywriter mit großer Reichweite, ein Linkedin-Video mit Untertiteln gepostet und damit seine Follower maximal verwirrt. Denn diese waren einfach nicht zu verstehen.

Was ist hier passiert?

Ich weiß zwar nicht, mit welcher Anwendung er die Untertitel in seinem Video erstellt hat, kenne dennoch den Fehler: Er hat der KI nicht mitgeteilt, welche Sprache in seinem Video gesprochen wird. Hier Stephans erster Kommentar auf die Verwirrung seiner Follower: „AI kann leider noch nicht alles …”.

Und an dieser Stelle bewahrheitet sich, wenn man es der KI überlässt, wählt sie die voreingestellte Sprache. Meistens ist das Englisch per Default. Eine Sache hat Stephan allerdings richtig gemacht: Er hat das Video mit „Open Captions” hochgeladen, d.h. die Untertitel sind nicht dauerhaft in das Video eingebrannt und somit sichtbar, sondern können wahlweise ein- oder ausgeschaltet werden.

Wer einen kleinen Blick auf das Video mit den falschen Untertiteln von Stephan Park werfen möchte, bitte hier entlang: Linkedin-Post

Mein persönliches Fazit: CapCut

CapCut ist ein umfangreicher und intuitiver Video-Editor on Bytedance, der Firma hinter der chinesischen Videoplattform-App TikTok. Er zeichnet sich durch eine leicht verständliche Benutzeroberfläche und viele praktische KI-Features aus. Die Nutzung ist ab 13 Jahren erlaubt, wird aber nicht überprüft.

In CapCut sind sehr viele Funktionen kostenlos. Aber nichts auf dieser Welt ist umsonst und schon gar nicht kostenlos. Beim Thema Datenschutz schneidet die App einfach nicht gut ab. Dafür, dass CapCut alle Vorteile einer Vollversion bietet, zahlen Nutzer im Vergleich zu anderen Apps auch deutlich mehr mit ihren persönlichen Daten. So werden Daten wie hochgeladene Dateien, IP-Adresse, Nutzungsverhalten sowie der ungefähre Telefonstandort gesammelt. Diese können zur Bereitstellung des Dienstes oder auch für interne Geschäftszwecke an Dritte weitergegeben werden. Um welche Drittanbieter es sich dabei handelt, wird nicht näher erläutert.

Für mich und meine Arbeit kommt CapCut aber noch aus einem anderen Grund nicht in Frage: Für professionelle Untertitelungen und Transkriptionen ist die App für mich unbrauchbar, da die KI-Spracherkennung vor allem im Deutschen zu viele Schwächen hat. So ignoriert sie Groß- und Kleinschreibung komplett und schreibt den generierten Text gnadenlos klein. Auch wenn die KI den Text generiert, würde ich im Nachhinein mehr Zeit mit der Korrektur des Textes in allen Textblöcken verbringen.

Schnell, einfach und kostenlos Captions für Social Media erstellen mit der App CapCut: Mini-Tutorial

Unschlagbar, aber kostenpflichtig: Adobe Premiere Pro

Als Multilingual Publishing Spezialistin benutze ich für meine Arbeit Premiere Pro – eine professionelle Video-Bearbeitungssoftware von Adobe. Die Funktion „Speech to Text” ist ein relativ neues Feature und erst seit der Version 15.4 verfügbar.

Während in den ursprünglichen Versionen von Premiere Pro „Sprache in Text” die Cloud-basierte Transkription verwendete, erfolgt der Transkriptions-Service seit Version 22.2 nun direkt auf den Geräten mit Hilfe von installierten Sprachpaketen.

Die Funktion „Sprache in Text” kann nun auch offline verwendet werden, ist DSGVO-konform und schneller als frühere cloud-basierte Versionen.

6 Gründe, warum ich mit Premiere Pro arbeite

Here we go:

    1. Textgenauigkeit: Ich habe verschiedene KI-basierte Transkriptionstools getestet, die automatisch Transkriptionen erstellen. Die Spracherkennung in Premiere Pro hat eine Textgenauigkeit von 90 %. Was für meine Arbeit sehr wichtig ist: Die KI erkennt die deutsche Groß- und Kleinschreibung.
    2. Überschaubare Kosten: Premiere Pro ist ein Programm, das bereits in meinem Adobe Creative Cloud Abo enthalten ist, für das ich monatlich ca. 52 EUR bezahle. Im Einzelprodukt-Abo kostet es derzeit 23,79 EUR/Monat. Die Kosten sind für mich überschaubar und es fallen keine zusätzlichen Kosten für mich an. Die professionellen Online-Tools hingegen haben verschiedene (oft undurchsichtige) Abo-Modelle oder sie rechnen Transkriptionen nach Textvolumen ab.
    3. DSGVO-konform: Datenschutz hat in Deutschland nach wie vor einen hohen Stellenwert. Mit Premiere Pro bleiben Transkriptionen DSGVO-konform. Bei Online-Tools, die Transkriptionen cloud-basiert erstellen, sollte vorab geprüft werden, in welchem Land sich die Server befinden.
    4. Sprachunterstützung: Die meisten Menschen schauen sich Videos in der Sprache an, die sie am besten verstehen. Übersetzte Untertitel sind immer dann sinnvoll, wenn globale Zielgruppen erreicht werden sollen. Meine aktuelle Version von Premiere Pro unterstützt derzeit diese 16 Sprachen: Englisch, Vereinfachtes Chinesisch, Traditionelles Chinesisch, Kantonesisch, Spanisch, Deutsch, Französisch, Japanisch, Portugiesisch, Koreanisch, Italienisch, Russisch, Hindi, Norwegisch, Schwedisch und Niederländisch.
    5. Reibungsloser Übersetzungsworkflow: Ich kann mit Premiere Pro qualitativ hochwertige Transkriptionen der Ausgangssprache erstellen und diese dann über eine SRT-Datei an die Übersetzer:innen schicken. Die Übersetzer:innen öffnen die SRT-Datei in ihrem CAT-Tool und überschreiben sie mit ihrer Übersetzung. Anschließend schicken sie mir die Datei im selben Format zurück, und ich kann daraus die Untertitel in der Zielsprache erstellen und sofort mit dem Finetuning beginnen. Und das alles ohne Tippen oder Copy and Paste.
    6. Gestaltung & Postproduktion: Mit Premiere Pro kann ich mit einem einzigen Tool automatisch Transkriptionen erstellen und in verschiedene Formate exportieren, aus den Transkriptionen Untertitel generieren, bearbeiten und gestalten, übersetzte Untertitel einfügen und Videos mit „Open Captions” oder „Closed Captions“ an den Kunden ausliefern. Außerdem kann ich die Videos für verschiedene Plattformen (Vimeo, YouTube, Facebook, Twitter) optimieren und auf Wunsch des Kunden aus dem Programm heraus auf die Plattformen hochladen.

Mein persönliches Fazit: Premiere Pro

Auch wenn Premiere Pro bereits über eine sehr gute, KI-basierte Spracherkennungssoftware verfügt, erreicht keine automatisch generierte Transkription eine Textgenauigkeit von 100 %. Auch Premiere Pro nicht. Das bedeutet, dass jede Transkription nach der Erstellung von mir noch manuell auf Fehler überprüft werden muss und diese gegebenenfalls korrigiert werden müssen.

Dabei hängt die Genauigkeit der Transkription beispielsweise davon ab, ob ein Mikrofon benutzt wurde, ob es Umgebungsgeräusche gab oder nicht. Ist die Sprache klar und deutlich oder gibt es Dialektfärbungen oder gar einen starken Akzent? Probleme können auch auftreten, wenn über ein Thema (wie z. B. „Kryptowährung”) gesprochen wird und viele Fachwörter, Anglizismen oder exotischen Wörter (oft auch Fantasiewörter) verwendet werden, für die es in der deutschen Sprache keine eigenen Wörter gibt und die Sprecher:innen diese dann in den Redefluss einbauen. Wenn dann noch die Qualität der Aufnahme nicht überzeugt, wird es nicht nur für die KI schwierig. Dann muss auch ich googeln und das Gesagte in einen sinnvollen Kontext stellen. Eine solche Textüberarbeitung gleicht dann eher einem Lektorat als einem bloßen Korrektorat.

Aber die Chancen stehen gut und die KI-Spracherkennung wird sich in den nächsten Jahren weiter entwickeln. Ich arbeite jedenfalls gerne mit meiner neuen KI-Kollegin zusammen, denn sie erspart mir das manuelle Abtippen eines Videos oder einer Audiospur und ich kann mir in der Zwischenzeit einen Espresso machen!

Zusatznutzen: Barrierefreie Videos

Viele Menschen denken bei Barrierefreiheit immer noch an Rollstühle und abgesenkte Bordsteine. Doch auch in der digitalen Welt gibt es Barrieren.

Wenn wir anfangen, Barrierefreiheit in der digitalen Welt mitzudenken, schaffen wir eine inklusivere und menschenfreundlichere Welt.

Untertitel sind der erste Schritt zu barrierefreien Videos. Davon profitieren Menschen mit und ohne Behinderung. Neben Gehörlosen nämlich auch Menschen, die mit der Sprache des Videos nicht vertraut sind oder mobile Smartphone-Nutzer:innen, die den Ton ihres Videos ausgeschaltet haben. Darüber hinaus machen Untertitel Webseiten noch suchmaschinenfreundlicher.

Möchtest du auch deine deutschen Videos mit professionellen Untertiteln versehen oder in einer anderen Sprache untertiteln? Melde dich gerne, wenn ich dich mit einer professionellen Transkription unterstützen kann oder du Fragen zu meinem Angebot hast.