Beim Sprechen gilt: die Nutzung definiert die Gage. Der Verwertungsumfang, in welchem eine Produktion genutzt wird (zeitlich, räumlich, medial/technisch, öffentlich, intern) und der dadurch erreichten Zielgruppe, bestimmt die Höhe der Vergütung – unabhängig davon, ob die Stimme des Sprechers KI-generiert ist oder nicht.
„Der Einsatz von KI muss menschliche Entfaltung erweitern und darf sie nicht vermindern. KI darf den Menschen nicht ersetzen.“
– Alena Buyx, Vorsitzende des Deutschen Ethikrats (2023)
Diesem Leitsatz folgend empfiehlt der VDS in vielen Genres, eine Mindestanzahl an live von einem Sprecher eingesprochenen Anteilen innerhalb einer Kampagne, bevor KI überhaupt zum Einsatz kommt. Der VDS vertritt das Sprecher-Handwerk und Künstler:innen und ist der Überzeugung, dass jedes Werk, das auf menschlicher Verbindung und Emotionen beruht, auch von menschlichen Stimmen vorgetragen werden sollte und nur so seine gewünschte Wirkung wirklich entfalten kann.
Werden innerhalb einer Kampagne Motive für verschiedene Medien in unterschiedlichen Preissegmenten produziert, so werden die höherpreisigen Medien zuerst live eingesprochen.
Beispiel:
Es sollen 10 TV-Motive und 2 Imagefilme vertont werden.
Der Sprecher hat eine Mindestvertonung live von 8 Motiven für Paid Media angegeben.
8 TV-Spots müssen live eingesprochen werden, während die verbleibenden 2 TV-Spots und die beiden Imagefilme, nach Zustimmung durch den Sprecher, mit der KI-Stimme generiert werden können, da die TV-Spot Lizenzen höherpreisiger sind als die Imagefilm Lizenzen.