Da ist Musike drin

Digital

Da ist Musike drin

Vereint Musik und natürliche Stimmgewalt: Opernsängerin Montserrat Caballé Foto: dpa

Eine israelische Firma bringt Computerstimmen Gefühle bei

von Boris Mayer 18.07.2011 18:54 Uhr

Telefonische Kinokartenreservierung, Firmen-Hotlines, die Telefonauskunft, sprechende Uhren, Informationsterminals und die Haltestellenansagen im öffentlichen Nahverkehr haben eines gemeinsam: Der Nutzer bekommt – zumindest anfangs – nur eine Computerstimme zu hören, die Texte mehr oder weniger verständlich vorliest. Anschließend ist der Nutzer dran und muss mittels Spracheingaben oder Tastendruck spezifizieren, was genau er möchte.

In der Praxis klappt die Kommunikation zwischen Mensch und Maschine oft jedoch nicht reibungslos. Verkündet die Computerstimme mit gleichbleibender Monotonie immer wieder Sätze wie »Ich habe Sie leider nicht verstanden« und fragt anschließend zum x-ten Mal erneut nach, ist selbst der gutwilligste Nutzer irgendwann so weit, dass er die virtuelle Person am anderen Ende lauthals anschreien möchte.

monotonie Eine israelische Firma möchte damit nun Schluss machen, indem sie den synthetisch erzeugten Stimmen Gefühle verleiht. Bei VivoText aus Kiryat Arba fand man heraus, dass ein Großteil der bei den Kunden entstehenden Irritationen an der Monotonie liegt, mit der die Texte vorgetragen werden.

Der Computer verkündet Hiobsbotschaften im selben Tempo, mit demselben Ausdruck und derselben Stimme wie einen Lottogewinn, denn Emotionen kann er nicht vermitteln. So klingt dann die Entschuldigung, gerade nicht weiter zu wissen, keineswegs zerknirscht, sondern wirkt auf den verzweifelten Anrufer durch die stoische Gleichförmigkeit wie reiner Hohn.

In vielen europäischen Städten hat man daraus die Konsequenz gezogen, dass man die automatisierten Ansagen wieder durch die echte Stimme des Busfahrers ersetzt hat oder gleich ein Sprecher verpflichtet wurde, der die Haltestellen einspricht. Auch in Navigationssystemen stammen die Ansagen von realen Menschen, nur dass die Aufnahmen wie ein Puzzle immer wieder neu zusammengesetzt werden.

Bei Telefonservices sieht die Sache aber nach wie vor anders aus, denn es ist wesentlich billiger, einem Computer die Aufgabe zu übertragen, Kunden an die – hoffentlich – richtige Stelle weiterzuleiten, als Menschen zu beschäftigen.

sprachsynthese Die Geschichte der Sprachsynthese ist lang. Schon 1968 gab es das erste Computerprogramm, das Text halbwegs verständlich als gesprochene Sprache ausgeben konnte. Doch komplett im Computer generierte Sprachausgabe ist auch heute noch weit von dem entfernt, was ein Mensch mit einem Mikrofon hinbekommt. VivoText will nun diese Kluft überwinden und eine echte, natürlich klingende Sprachausgabe aus einfachem Text erzeugen.

Der Kopf hinter VivoText ist Gershon Silbert, von Haus aus Konzertpianist. Dieser Hintergrund gibt Silbert seinen wichtigsten Ansatzpunkt: Musik drückt Gefühle aus, Melodien können Glück und Trauer darstellen, genauso wie Wut und Bedauern. Musik kann beruhigen oder aufregen – und jeder Hörer versteht diese Gefühle, auch wenn er die Sprache, in der ein Songtext gesungen wird, nicht kennt.

VivoText verknüpft also Musik mit künstlich erzeugter Sprachausgabe, um eine natürlich klingende Sprachausgabe zu schaffen. Denn wie in der Musik sind auch beim Vorlesen Tonhöhe, Lautstärke und eine variierende Geschwindigkeit wichtig. Die richtigen Textstellen müssen betont werden, Fragen müssen von Aussagesätzen unterscheidbar sein.

Der Computer muss also herausfinden, welche Tempi, Betonungen und Emotionen in der Stimme an einer bestimmten Textstelle angebracht sind. Dazu muss zunächst einmal der Kontext des Textes semantisch und syntaktisch betrachtet werden – der Computer muss also die Bedeutung ebenso verstehen wie die Grammatik und den inhaltlichen Zusammenhang.

Das wird sehr schnell am Beispiel der Telefon-Hotline klar: Wenn ein zerknirschtes »Ich habe Sie leider nicht verstanden« nahtlos mit einer besonders fröhlich vorgetragenen Wiederholung der Frage fortgesetzt wird, dürfte die Reaktion am anderen Ende der Leitung noch negativer ausfallen als bei einer monotonen Computerstimme.

hörbücher »Wir sind die Einzigen, die es geschafft haben, menschenähnliche Sprachausgabe zu entwickeln. Die Stimmen von VivoText klingen menschlich, weil sie Ausdruck haben«, verkündet Gershon Silbert selbstbewusst. Doch VivoText zielt nicht nur auf Hotlines und Ansagen. »Der Markt ist riesig, es geht um mehrere Milliarden«, sagt Silbert.

So denkt er etwa an den großen Markt für Audiobooks. Bisherige computergenerierte Stimmen sind dafür nicht verwendbar, weil durch die Monotonie selbst der spannendste Text langweilig wird. Bei VivoText sorgen Textformatierungen wie kursive, unterstrichene oder fette Stellen für deutlichere Betonung. Im Vergleich zu einem Sprecher wäre eine solche, ein komplettes Audiobook ausgebende Software natürlich viel billiger.

Ein so breites Einsatzgebiet bedeutet aber auch, dass der Computer wissen muss, was er da eigentlich vorliest. Bei Nachrichten erwartet der Hörer einen anderen Vortragsstil als bei einem Roman. Das kann der Computer noch nicht alleine herausfinden, der Nutzer muss es einstellen.

Doch das funktioniert ja bei Musik auch nicht anders, viele Musikanlagen haben Presets (Voreinstellungen) für verschiedene Musikgenres. Bei VivoText sind dies eben nicht Rock, Pop, Jazz oder Oper, sondern Nachrichten, Abenteuer oder Spannung. Womöglich gibt es VivoText ja bald als App, und man kann sich einen gerade erschienenen Bestseller als eBook kaufen und sich dann gemütlich vom eigenen Smartphone spannend und natürlich vorlesen lassen.

Berlin

»Eine Zierde der Stadt«- Vor 30 Jahren wurde das Centrum Judaicum eröffnet

Es ist einer der wichtigsten Orte jüdischen Lebens in Deutschland: Vor 30 Jahren wurde das Centrum Judaicum im denkmalgeschützten Gebäude der Neuen Synagoge in der Oranienburger Straße in Berlin-Mitte eingeweiht

28.04.2025

Paris

»Bambi«-Neuverfilmung: Nah an Felix Saltens Original

Ganz ohne Spezialeffekte und Animation: In Michel Fesslers »Bambi«-Neuauflage stehen echte Tiere vor der Kamera. Das Buch wurde einst von den Nazis verboten

von Sabine Glaubitz 28.04.2025

Fernsehen

»Persischstunden«: Wie eine erfundene Sprache einen Juden rettet

Das Drama auf Arte erzählt von einem jüdischen Belgier, der im KZ als angeblicher Perser einen SS-Mann in Farsi unterrichten soll. Dabei kann er die Sprache gar nicht

von Michael Ranze 25.04.2025

100 Jahre "Der Prozess"

Was Kafkas »Der Prozess« mit KI und Behörden-Wirrwarr gemeinsam hat

Seine Liebesworte gehen auf TikTok viral. Unheimlich-groteske Szenen beschrieb er wie kein Zweiter. In Zeiten von KI und überbordender Bürokratie wirkt Franz Kafkas Werk aktueller denn je - eben kafkaesk

von Paula Konersmann 25.04.2025

Reykjavik

Island fordert Ausschluss Israels vom ESC

Das Land schließt sich damit der Forderung Sloweniens und Spaniens an. Ein tatsächlicher Ausschluss Israels gilt jedoch als unwahrscheinlich

25.04.2025

Popkultur

Israelfeindliche Band Kneecap von zwei Festivals ausgeladen

Bei Auftritten verbreiten die irischen Rapper Parolen wie »Fuck Israel«. Nun zogen die Festivals Hurricane und Southside Konsequenzen

von Imanuel Marcus 25.04.2025

Berlin/Brandenburg

Filmreihe zu Antisemitismus beim Jüdischen Filmfestival

Das Festival läuft vom 6. bis 11. Mai

25.04.2025

Fernsehen

Ungeschminkte Innenansichten in den NS-Alltag

Lange lag der Fokus der NS-Aufarbeitung auf den Intensivtätern in Staat und Militär. Doch auch viele einfache Menschen folgten der Nazi-Ideologie teils begeistert, wie eine vierteilige ARD-Dokureihe eindrucksvoll zeigt

von Manfred Riepe 24.04.2025

Meinung

Nur scheinbar ausgewogen

Die Berichte der Öffentlich-Rechtlichen über den Nahostkonflikt wie die von Sophie von der Tann sind oft einseitig und befördern ein falsches Bild von Israel

von Sarah Maria Sander 24.04.2025