Bei klassischem ′Text-to-Speech′ (TTS) handelt es sich um das künstliche Erzeugen der menschlichen Stimme durch das Einsprechen von Textbausteinen oder Texten durch eine:n Sprecher:in, welche von einem System zu neuen Wörtern und Sätzen zusammengesetzt werden können, sodass diese unterschiedliche Texte wiedergeben können, ohne dass diese von der/dem Sprecher:in selbst eingesprochen werden müssen. Beispiele hierfür sind Sprachassistenten, Navigationssysteme, Telefonansage, sprechende Geräte usw..
Klar davon abzugrenzen ist die Sprachsynthese für die Verwendung in Generativer KI, für welche Sprachaufnahmen von Sprecher:innen genutzt werden um ihre Stimme vollständig zu synthestisieren und für unterschiedliche Nutzungszwecke zugänglich zu machen, zu morphen, zu klonen oder KI Systeme zu trainieren.
Da die erfolgreich programmierte Stimme einer Sprecherin oder eines Sprechers eine unbegrenzte Anzahl an Texten für die gebuchte Marke / das Produkt o.ä. widergeben kann und ggf. an Marktwert einbüßt, ist es sinvoll, derlei Anfragen und Veträge sehr gewissenhaft zu prüfen, auszuhandeln und hochpreisig anzusetzen. Auf eine genaue Definition des Verwertungsumfangs ist zu achten.
Die hier angegebenen Preise für klassiches Text-to-Speech basieren auf Zahlen von Verträgen seriöser, real am Markt agierender Unternehmen. Der VDS führt die Elemente, aus denen sich der Preis zusammensetzt, einzeln auf (Arbeitstage, Nutzungsumfang, besondere Konditionen wie Exklusivität oder Namensnennung), um ein Bewusstsein dafür zu schaffen, dass es sich bei Sprachsynthese um ein komplexes und hochwertiges Produkt handelt.
Das Verwertungsrecht bei den hier aufgeführten Gagen bezieht sich jeweils auf 1 Jahr.
Bezeichnung | Gage (in €) | Anmerkungen |
Tagessatz – je Studiotag | 800 | max. 6 Std. pro Tag |
Bezeichnung | Gage (in €) | Anmerkungen |
Stundensatz – je Stunde | 250 | Mit eingeschränkter Nutzung, z.B. App für Schulungszwecke oder eventbezogen, etc. |
zzgl. Gage nach Textlänge | ||
bis 5 Minuten | 350 | Berechnung wie eLearning |
je weitere 5 Minuten | 75 |
Bezeichnung | Gage (in €) | Anmerkungen |
Stundensatz – je Stunde | 250 | |
zzgl. Beteiligung an Nutzung | ||
bis 25.000 Auslieferungen | 3.000 | |
bis 100.000 Auslieferungen | 8.000 | |
bis 500.000 Auslieferungen | 20.000 | |
bis 5 Mio. Auslieferungen | 60.000 |
Bezeichnung | Gage (in €) | Anmerkungen |
bis 25.000 Auslieferungen | 8.000 | Ein Produkt, z.B. „sprechender Kühlschrank“ |
bis 100.000 Auslieferungen | 20.000 | Eine Produktlinie, z. B. alle Kühlschränke einer Marke |
bis 500.000 Auslieferungen | 50.000 | Eine Markenlinie, z. B. alle Haushaltsgeräte einer Marke |
bis 5 Mio. Auslieferungen | 150.000 | Alle Geräte eines Konzerns inkl. crossmedialer Nutzung (z.B. TV-Werbung) |
Exklusivität ist exakt zu definieren, sobald sie über den üblichen Konkurrenzausschluss hinausgeht
Bezeichnung | Gage (in €) | Anmerkungen |
Exklusivität – zusätzlich bis zu | 250.000 | Je nach Umfang des Ausschlusses. |
Gemäß Urheberrecht – § 74 UrhG – gibt es ein Recht auf Namensnennung
Bezeichnung | Gage |
Schadensersatz | Bis zu 100% der Nutzung |
NDA und Verbot der Namensnennung
NDAs (non-disclosure-agreements) sind in den Verträgen üblich, meist sehr umfassend und mit hohen Konventionalstrafen versehen. Es dürfen also keine Informationen über Texte oder Details des Projekts nach außen getragen werden. Dies ist eine legitime Bedingung von Seiten des Auftraggebers. Die Namensnennung als ausübender Künstler sollte davon aber nicht beeinträchtigt werden, denn diese ist im deutschen Urheberrecht geschützt. Doch die Erfahrung zeigt, dass die NDAs (ohne deutschen Gerichtsstand) oft auch mit Verbot der Namensnennung versehen werden, so dass die Sprecher Konventionalstrafen befürchten müssen, wenn sie erwähnen, dass sie „die Stimme von <XY>“ sind. Gleichzeitig kann es durchaus passieren, dass ein Kunde die Stimmen eines Sprechers in einer Sprachsynthese erkennt. Das kann zu einer schwierigen Beweislage, zu Beeinträchtigungen im Umgang mit Kunden und zum Verlust von Aufträgen führen. Für die Firmen ist das Geheimnis, wer hinter der Stimme steckt, aber oft von großer Bedeutung für die Mystik ihres Produktes.
Deshalb hat der VDS das Verbot der Namensnennung als einen eigenen Punkt bei der Berechnung des Honorars aufgeführt, so dass abgewogen werden kann, welchen Wert die Namensnennung für die jeweiligen Seiten darstellt.
Diese Preise bieten nur eine grobe Orientierung. Es wird empfohlen, sich bei einer konkreten Vertragsanbahnung einen erfahrenen Medienanwalt zu nehmen. Dazu können Sie sich gerne an den VDS wenden.
WEITERE HINWEISE:
Nutzung noch nicht genannter oder unbekannter Kanäle bedürfen einer neuen Vereinbarung gemäß § 32c Abs. 1 UrhG.
Sogar ein Total-Buyout ist unwirksam, wenn unklar ist, für welches konkrete Produkt bzw. welche konkrete Marke es vereinbart wurde.
Für den Fall, dass die Sprachaufnahme für eine Software-Entwicklung erfolgt, ohne Kenntnis einer Verwertung für ein konkretes Produkt, sollte im Vertrag festgehalten werden, dass es sich um eine Tätigkeitsvergütung der reinen Sprechertätigkeit handelt und eine spätere Rechteeinräumung nur nach einer gesonderten Absprache möglich ist.
Um im Streitfall eine Aussicht auf Erfolg zu haben, ist Deutschland als Gerichtsstand von grundlegender Bedeutung!
Beachten Sie hierzu auch die Empfehlungen des VDS.