Der Kreativprozess der Zukunft: Wie künstliche Intelligenz die Produktion von Podcasts verändert

Der Kreativprozess der Zukunft: Wie künstliche Intelligenz die Produktion von Podcasts verändert

■ TECHNOLOGY
September 1, 2020
“If you think of audio as the way you think of, say, film, like we’re still in the black-and-white period of podcasting. What’s color going to look like? Whats 3-D going to look like?”
Host Sean Remeswaram in Recode Decode

Einer meiner aktuellen Lieblingspodcasts ist Pivot mit Kara Swisher und Scott Galloway . In einer der vergangenen Folgen berichtet Kara davon, dass der wohl fortschrittlichste Textgenerator der Welt einen ihrer Artikel verblüffend authentisch beenden konnte. Der Textgenerator, von dem Kara Swisher spricht, ist der GPT-3, entwickelt von OpenAI – dem von Elon Musk initiierten KI-Unternehmen. Schrittweise hat OpenAI über die vergangenen Monate ein System veröffentlicht, das basierend auf nur kurzen Beispieltexten, weitere Texte zu ähnlichen, gleichen oder sogar ganz anderen Themen verfassen kann. Seit wenigen Wochen ist eine Beta-API zum sogenannten GPT-3 verfügbar und die ersten Usecases scheinen ein Meilenstein für maschinelle Textgeneration zu sein.

Eine Annahme, mit der sich die Kreativindustrie vor Gefahren einer Automatisierung in Sicherheit wiegt, ist der feste Glaube daran, dass Kreativprozesse nicht vollends zu automatisieren sind. Letztlich ist die konkrete Funktionsweise eines Kreativprozesses nicht vollständig verstanden – wie soll dieser also automatisiert werden? Wer aber die beeindruckenden Anwendungsbereiche von KI in Kreativbereichen recherchiert, wird in diesem Glauben zumindest ins Wanken geraten. Da mich die Schnittstelle von Technologie und Kreativität insbesondere interessiert, beleuchtet dieser Artikel Facetten dieses Bereichs. Abschließend möchte ich einige besonders spannende Entwicklungen in meiner Branche beschreiben – der Podcastindustrie.

Künstliche Intelligenz (KI) ist eine potente Mehrzwecktechnologie. Neueste Erkenntnisse im Bereich des Machine Learning und Deep Learning sind in diesem Kontext besonders vielversprechend. Die zukünftige Weiterentwicklung dieser Technologie könnte rasant fortschreiten und impliziert enorme Möglichkeiten in Bereichen der Medizin, Logistik und auch kreativer Arbeit. Die KI-Thematik kennzeichnet eine Abfolge diverser Hype-Zyklen, die immer wieder einen Paradigmenwechsel voraussagen. Aufgrund diverser Fehlschlüsse bekannter KI-Forscher und der fiktionalen Vertiefung Künstlicher Intelligenz im Genre Science-Fiction wurden Erkenntnisse im Forschungsbereich der Künstlichen Intelligenz jedoch mehrfach unverhältnismäßig stark polarisiert. Anfängliche Erfolge und erste Erkenntnisse wurden medial als Beginn der technologischen Singularität postuliert, während es sich dabei eher um Grundlagenforschung und eine Vielzahl misslungener Ansätze handelte.
Die Charakteristik des Forschungsbereichs über Jahrzehnte hinweg immer und immer wieder grandiose Schlagzeilen und leicht medial verwertbare Inhalte zu generieren, kennzeichnet die Künstliche Intelligenz. Eben dieses Merkmal ist eine große Schwäche. Erste Erkenntnisse führten zu Medienrummel und Begeisterung – einhergehend folgten Fördermittel und Startups, die Forschungen drastisch voranbrachten. ForscherInnen erhofften sich Großes, verpflichteten sich medial zu grundlegenden Erkenntnissen und scheiterten an dem ausbleibenden technologischen Fortschritt oder theoretischen Fehlschlüssen. Eine mediale Begeisterung wich einem gesellschaftlichen Verdruss und damit auch dem Ausbleiben von Fördergeldern und unternehmerischen Neugründungen. Der Forschungsbereich lag brach, bis ein neuer Ansatz, eine neue Innovation, den Hoffnungen erneut Leben einhauchen konnte. Für einen Überblick dieser Zyklen empfiehlt sich der Wikipedia-Artikel zu KI-Wintern.

Der aktuelle Hype-Zyklus ist zu einem überwältigenden Anteil der Deep Learning-Innovation zu verdanken. In Verbindung mit riesigen Datensätzen und eigens für Maschinelles Lernen optimierter Hardware, ist es diesen besonders tiefen neuronalen Netzwerken heute möglich hoch komplexe Problemstellungen zu lösen.

Maschinelle Kreativität

Man könnte meinen, dass insbesondere kreative Aufgaben maschinell unfassbar schwer zu lösen seien. Doch der subjektive Eindruck, welche Aufgaben maschinell schwer oder leicht zu lösen sind, ist selbst schon Opfer eines Fehlschlusses. Das Moravec‘sche Paradoxon beschreibt die Beobachtung anerkannter KI-Forscher, dass Computer – im Gegensatz zu traditionellen Annahmen – für hochrangig wahrgenommenes Denken (bspw. rationale Schlussfolgerung und Logik) deutlich weniger Rechenkraft aufwenden als für sensomotorische Fähigkeiten, die nämlich enorme rechnerische Ressourcen erfordern.

„The main lesson of thirty-five years of AI research is that the hard problems are easy and the easy problems are hard.

The mental abilities of a four-year-old that we take for granted – recognizing a face, lifting a pencil, walking across a room, answering a question – in fact solve some of the hardest engineering problems ever conceived… As the new generation of intelligent devices appears, it will be the stock analysts and petrochemical engineers and parole board members who are in danger of being replaced by machines. The gardeners, receptionists, and cooks are secure in their jobs for decades to come.“

Sprach- und Kognitionswissenschaftler Steven Pinker in The Language Instinct, 1994

Eine mögliche Erklärungsweise dieses Phänomens ist die Tatsache, dass sensomotorische Abläufe im evolutionären Prozess deutlich älter sind, mehr Zeit hatten sich auszubilden und deshalb komplexer sind. Auch wenn eine Fertigkeit nicht bewusst komplex oder als anstrengend wahrgenommen wird, zeigen aktuelle neurowissenschaftliche Erkenntnisse, dass allein das Aufheben eines Stiftes hochgradig komplexen Prozessen folgt.        

Allererste Hinweise auf “menschliche” Kreativität gehen 2,4 Millionen Jahre zurück. Der Homo Habilis, der Erste der Gattung Homo, gilt als eine der frühesten konkreten Abweichungen zwischen Menschenaffen und Mensch. Dem Homo Habilis werden die ersten bekannten menschlichen Erfindungen zugeschrieben: Ausgrabungen fanden frühzeitliche Werkzeuge, die vermutlich zum Öffnen von Früchten und Nüssen genutzt wurden. Diese Werkzeuge waren im Grunde nur angespitzte Steine und in unserem heutigen Empfinden wohl kaum als Produkt eines kreativen Prozesses zu beschreiben. Trotzdem gelten diese frühen Werkzeuge als monumentaler Durchbruch für die Spezies Mensch. Nichtsdestotrotz: Zum Zeitpunkt erster menschlicher Kreativität waren sensomotorische Fähigkeiten längst ausgebildet. Im Kontext, des Moravec‘schen Paradoxon (welches übrigens keineswegs bewiesen ist) könnte die Annahme getroffen werden, dass Kreativität maschinell zwar schwerer als logisches Schlussfolgern, doch zumindest leichter als sensomotorische Fertigkeiten zu lösen ist.

Kreativität als Prozess

Der Kreativprozess lässt sich nicht problemlos in seinen Abläufen differenzieren. Eine meiner Lieblingshypothesen zum Kreativprozess habe ich in einer Diskussion auf LessWrong gelesen. LessWrong ist ein Community-Forum, das sich primär auf Diskussionen zu Rationalität und Künstlicher Intelligenz konzentriert. Dort wurde der Kreativprozess wie folgt beschrieben:  

Was wir Kreativität nennen, sind einfach jene Algorithmen im Gehirn, die Lösungen für Probleme vorschlagen, zu denen wir aber keinen introspektiven Zugang haben. Der Mangel an introspektivem Zugang bedeutet, dass es schwierig ist, kreative Fähigkeiten weiterzugeben – denken Sie beispielsweise an eine Schriftstellerin, die zu erklären versucht, wie man gut schreibt. Sie kann ein paar grundlegende Faustregeln geben, aber der größte Teil dieser komplexen Fähigkeit ist in einer Black Box enthalten, die mögliche Sätze vorschlägt. Der eigentliche Schreibprozess findet eher so statt:

Schritt 1: Warten, bis das Gehirn einen geeigneten Vorschlag für den nächsten Satz gefunden hat.
Schritt 2: Für jeden Satz einen Funktionsaufruf an das ‘Ist-dieser-Satz-gut?’-Modul des Gehirns schicken (Guess-and-Check-Prinzip).          

Besonders kreative Menschen sind demnach diejenigen, die ungewöhnlich gut darin sind, die richtige Lösung aus dem riesigen Raum möglicher Lösungen, die in Betracht gezogen werden könnten, auszuwählen. Natürlich gibt es manchmal Einblicke in eine Regel oder einen Prozess, wie einige der kreativen Vorschläge des Gehirns erzeugt werden. Wenn das geschieht, kann man explizit verbalisieren, wie die kreative Fähigkeit funktioniert. Damit hört sie auf kreativ zu sein – man kann sie als einfache Regel oder Prozedur an jeden weitergeben. Kreativität ist eine Fertigkeit, die nicht prozeduralisierbar ist, weil Algorithmen, die diese Fertigkeit erzeugen, immun gegen Introspektion sind. Der konkrete Ablauf des Kreativprozesses kann nicht derartig ins Bewusstsein gebracht werden, dass er explizit beschrieben und weitergegeben werden könnte.

Wir haben etabliert, dass Kreativität in dieser Definition, nur bedingt auf Logik zu beziehen ist oder in ihrem Ablauf ausdefiniert werden kann. Maschinelles Lernen im Speziellen ist im Grunde eine äußerst effiziente Mustererkennung sowie Optimierung durch beispielweise unzählige simulierte, anfangs zufällig generierte Trial- & Error-Experimente. Vielleicht bleibt es nur dem begrenzten Denkvermögen des Menschen verborgen, inwiefern sich der Kreativprozess prozeduralisieren lässt. Grundsätzlich folgt ein Machine Learning-System einem rein rationalem, nutzenmaximierenden Optimierungs- und Durchführungsprozess. Bestimmte Entscheidungen einer KI können als kreativ wahrgenommen werden. Dabei resultieren sie bei genauerer Betrachtung aus einem rationalen Prozess, einer seltenen Fehlentscheidung oder aber einer Abwägung der Hintergründe, die der Analyse des Menschen aufgrund enormer Komplexität verborgen bleiben. Ein gutes Beispiel ist Zug Nr. 37 aus Spiel 2 der Google Deepmind KI gegen Lee Sedol, dem damals amtierenden Go-Weltmeister. Ein Zug, der zuerst als Fehler beschrieben, dann als kreativ und letzten Endes als überaus rational und genial deklariert wurde.

Maschinelle Kreativität in der Produktion von Podcasts

Es bleibt ungeklärt, ob der Kreativprozess maschinell zu ersetzen ist. Künstliche Kreativität muss aber ja nicht ausschließlich bedeuten, dass der Kreativprozess von Anfang bis Ende durch die Maschine automatisiert wird. Sehr vielversprechend scheint eine Kooperation zwischen Mensch und Maschine, um den Kreativprozess zu unterstützen. Der Kreativprozess einer Podcastentwicklung unterteilt sich zum Beispiel in unterschiedliche konzeptionelle Schritte und Aufgaben. Jeder dieser Schritte lässt sich bereits durch Tools und Anwendungen unterstützen. Im deutschsprachigen Raum sind diese Anwendungen noch selten in Gebrauch, da modernste Textgenerierung und Spracherkennung bisher eher auf englischsprachige Inhalte angelegt sind. Zwei Anwendungen, die den Kreativprozess in der Podcastgestaltung schon heute massiv unterstützen, sind:          

Descript:
Hierbei handelt es sich um ein Valley-Unternehmen, das eine eigens für Podcasts optimierte DAW (Digital Audio Workstation) entwickelt hat. Audio-Dateien werden mit dem Upload automatisch transkribiert und die Audio-Bearbeitung findet im Text selbst statt. Descript ist eng verbunden mit Lyrebird AI. In Descript ist es möglich, Wörter zu synthetisieren, die vom Sprecher oder der Sprecherin so nie gesagt wurden. Es ist die gleiche Technologie, bei der es möglich war, ganze Sätze künstlich zu erstellen, z.B. im Tonfall Barack Obamas. Dies ist nun mit der Stimme des Hosts im Podcast möglich. Wurde beispielsweise ein Wort falsch ausgesprochen, kann dieses in der Bearbeitung ohne Neuaufnahme künstlich synthetisiert werden. Bisher funktioniert Descript allerdings nur mit englischsprachigen Audios.

Grammarly:
Mittlerweile gibt es kaum einen englischen Text, den ich nicht in Grammarly schreibe. Dieser KI-unterstützte Schreibassistent korrigiert nicht nur Grammatik-, Syntax- und Rechtschreibfehler, sondern prüft den geschriebenen Text zudem auf gewünschte Tonalität und gibt Formulierungshinweise.

In den Feature-Anfragen für die Weiterentwicklung von Descript findet sich der Wunsch nach einer Integration von Grammarly. Diese beiden Anwendungen zeigen, wie Konzeption und Produktion von Podcasts zukünftig von Technologie unterstützt werden könnten.

Und nun stellen Sie sich mal vor

Auf Basis einer kurzen Anfangsrecherche lasse ich mir über Open-AIs GPT-3 einen ausformulierten Recherchetext erstellen. Je nach Tonalität des gewünschten Skripts, verfeinere ich anschließend die Formulierung in Grammarly und spreche den Text ein. In Descript kann ich die Bearbeitung des Podcasts im transkribierten Text selbst vornehmen und könnte Formulierungsfehler sogar schlichtweg synthetisieren, anstatt neu aufzunehmen.

Abschließend

Oftmals wird gerade der Kreativprozess unverhältnismäßig stark romantisiert. Als könne maschinelle Unterstützung dem Zauber oder der Originalität des kreativen Werkes etwas nehmen. Ich kann mir dabei nicht mehr als eine Verschiebung vorstellen. So wie der Taschenrechner die Buchhaltung nicht erschüttert, sondern allenfalls genauer gemacht hat, verschiebt sich der Kreativaufwand des Formulierens zunehmend zu einer genaueren Ausarbeitung der Erzählform, des Spannungsbogens oder der Charaktere.  

Traditionell ist die Kreativwirtschaft der Innovation eher fern und rennt neuen Entwicklungen hinterher oder winkt mit Abmahnungen. Insbesondere im Zuge des Aufstiegs der Podcast-Industrie, als einziges werbeunterstützte Medium im Wachstum, sehe ich große Potenzial für einen fortschrittlicheren Umgang mit neuen technologischen Entwicklungen.  

Wie sehen Sie den Umgang der Kreativindustrie mit Technologie und Innovation? Inwiefern begünstigt oder benachteiligt Technologie den Kreativprozess? Und wie lange bleibt der Kreativprozess dem Menschen vorbehalten?

Ich freue mich über Meinungen, Ideen und Austausch.

Read more