Die TTS-Gagenliste

text-to-speech
Aus Texten Sprache generieren.

Bei klassischem ′Text-to-Speech′ (TTS) handelt es sich um das künstliche Erzeugen der menschlichen Stimme durch das Einsprechen von Textbausteinen oder Texten durch eine:n Sprecher:in, welche von einem System zu neuen Wörtern und Sätzen zusammengesetzt werden können, sodass diese unterschiedliche Texte wiedergeben können, ohne dass diese von der/dem Sprecher:in selbst eingesprochen werden müssen. Beispiele hierfür sind Sprachassistenten, Navigationssysteme, Telefonansage, sprechende Geräte usw..

Klar davon abzugrenzen ist die Sprachsynthese für die Verwendung in Generativer KI, für welche Sprachaufnahmen von Sprecher:innen genutzt werden um ihre Stimme vollständig zu synthestisieren und für unterschiedliche Nutzungszwecke zugänglich zu machen, zu morphen, zu klonen oder KI Systeme zu trainieren.

Da die erfolgreich programmierte Stimme einer Sprecherin oder eines Sprechers eine unbegrenzte Anzahl an Texten für die gebuchte Marke / das Produkt o.ä. widergeben kann und ggf. an Marktwert einbüßt, ist es sinvoll, derlei Anfragen und Veträge sehr gewissenhaft zu prüfen, auszuhandeln und hochpreisig anzusetzen. Auf eine genaue Definition des Verwertungsumfangs ist zu achten.

Die hier angegebenen Preise für klassiches Text-to-Speech basieren auf Zahlen von Verträgen seriöser, real am Markt agierender Unternehmen. Der VDS führt die Elemente, aus denen sich der Preis zusammensetzt, einzeln auf (Arbeitstage, Nutzungsumfang, besondere Konditionen wie Exklusivität oder Namensnennung), um ein Bewusstsein dafür zu schaffen, dass es sich bei Sprachsynthese um ein komplexes und hochwertiges Produkt handelt.

Das Verwertungsrecht bei den hier aufgeführten Gagen bezieht sich jeweils auf 1 Jahr.

ZUR BERECHNUNG VON

text-to-speech

Download | TTS Gagenliste [PDF]

Tagessätze
BezeichnungGage (in €)Anmerkungen
Tagessatz – je Studiotag800max. 6 Std. pro Tag
Produkte & Nutzung
Interne Anwendung
BezeichnungGage (in €)Anmerkungen
Stundensatz – je Stunde250Mit eingeschränkter Nutzung, z.B. App für Schulungszwecke oder eventbezogen, etc.
zzgl. Gage nach Textlänge
bis 5 Minuten350Berechnung wie eLearning
je weitere 5 Minuten75
Kommerzielle Anwendung
Kommerzielle Anwendung - evtl. mit In-App-Verkäufen
BezeichnungGage (in €)Anmerkungen
Stundensatz – je Stunde250 
zzgl. Beteiligung an Nutzung 
bis 25.000 Auslieferungen3.000 
bis 100.000 Auslieferungen8.000 
bis 500.000 Auslieferungen20.000 
bis 5 Mio. Auslieferungen60.000 
Kommerzielle Anwendung – Geräte (Navi, Sprachassistent, Headset, Internet of things usw.)
BezeichnungGage (in €)Anmerkungen
bis 25.000 Auslieferungen8.000Ein Produkt, z.B. „sprechender Kühlschrank“
bis 100.000 Auslieferungen20.000Eine Produktlinie, z. B. alle Kühlschränke einer Marke
bis 500.000 Auslieferungen50.000Eine Markenlinie, z. B. alle Haushaltsgeräte einer Marke
bis 5 Mio. Auslieferungen150.000Alle Geräte eines Konzerns inkl. crossmedialer Nutzung (z.B. TV-Werbung)
Exklusivität

Exklusivität ist exakt zu definieren, sobald sie über den üblichen Konkurrenzausschluss hinausgeht

BezeichnungGage (in €)Anmerkungen
Exklusivität – zusätzlich bis zu250.000Je nach Umfang des Ausschlusses.
Verbot der Namensnennung

Gemäß Urheberrecht – § 74 UrhG – gibt es ein Recht auf Namensnennung

BezeichnungGage
SchadensersatzBis zu 100% der Nutzung

NDA und Verbot der Namensnennung

NDAs (non-disclosure-agreements) sind in den Verträgen üblich, meist sehr umfassend und mit hohen Konventionalstrafen versehen. Es dürfen also keine Informationen über Texte oder Details des Projekts nach außen getragen werden. Dies ist eine legitime Bedingung von Seiten des Auftraggebers. Die Namensnennung als ausübender Künstler sollte davon aber nicht beeinträchtigt werden, denn diese ist im deutschen Urheberrecht geschützt. Doch die Erfahrung zeigt, dass die NDAs (ohne deutschen Gerichtsstand) oft auch mit Verbot der Namensnennung versehen werden, so dass die Sprecher Konventionalstrafen befürchten müssen, wenn sie erwähnen, dass sie „die Stimme von <XY>“ sind. Gleichzeitig kann es durchaus passieren, dass ein Kunde die Stimmen eines Sprechers in einer Sprachsynthese erkennt. Das kann zu einer schwierigen Beweislage, zu Beeinträchtigungen im Umgang mit Kunden und zum Verlust von Aufträgen führen. Für die Firmen ist das Geheimnis, wer hinter der Stimme steckt, aber oft von großer Bedeutung für die Mystik ihres Produktes.

Deshalb hat der VDS das Verbot der Namensnennung als einen eigenen Punkt bei der Berechnung des Honorars aufgeführt, so dass abgewogen werden kann, welchen Wert die Namensnennung für die jeweiligen Seiten darstellt.

Hinweise

Diese Preise bieten nur eine grobe Orientierung. Es wird empfohlen, sich bei einer konkreten Vertragsanbahnung einen erfahrenen Medienanwalt zu nehmen. Dazu können Sie sich gerne an den VDS wenden.

WEITERE HINWEISE:

Nutzung noch nicht genannter oder unbekannter Kanäle bedürfen einer neuen Vereinbarung gemäß § 32c Abs. 1 UrhG.

Sogar ein Total-Buyout ist unwirksam, wenn unklar ist, für welches konkrete Produkt bzw. welche konkrete Marke es vereinbart wurde.

Für den Fall, dass die Sprachaufnahme für eine Software-Entwicklung erfolgt, ohne Kenntnis einer Verwertung für ein konkretes Produkt, sollte im Vertrag festgehalten werden, dass es sich um eine Tätigkeitsvergütung der reinen Sprechertätigkeit handelt und eine spätere Rechteeinräumung nur nach einer gesonderten Absprache möglich ist.

Um im Streitfall eine Aussicht auf Erfolg zu haben, ist Deutschland als Gerichtsstand von grundlegender Bedeutung!

Beachten Sie hierzu auch die Empfehlungen des VDS.