Kürzlich teilte ein Kollege einen Podcasts, welcher mit Googles NotebookLM generiert wurde. Googles neuestes Kleinode fasst Webseiten, Artikel und sogar PDF zusammen und erstellt daraus auf Wunsch auch einen Podcast. Unter Bloggern gibt es einen wachsenden Trend den eigenen Blog in einen Podcasts umzuwandeln. Da muss ich als Blogger natürlich auch mitmachen :D
Die Ergebnisse waren sehr beeindruckend. Googles Wahl der Sprecher stimmen ist hervorragend: die tiefe, maskuline von Sprecher A und die mitreißende Stimme von Sprecher B sorgten für ein überraschend angenehmes Hörerlebnis. Auch die Generierung dieser Episoden war unkompliziert – einfach die Seiten hinzufügen, die die KI berücksichtigen soll, auf „Generieren“ klicken, und innerhalb von Momenten hat man eine Podcast-Episode.
Während die erste Episode meine Gedanken zur Führung von Teams und meinen Ansatz dazu beleuchtete, nahm die zweite Episode eine persönlichere Perspektive ein und konzentrierte sich auf meine Reisen und Abenteuer. Beide bieten eine faszinierende Sichtweise und etwas Unterhaltungswert, und hier ist die zweite Version:
Die Technologie ist zwar beeindruckend, aber es gibt noch Raum für Verbesserungen. Wie man in den Episoden hören kann, gibt es einige Sprünge zwischen den Themen. Davon sind die meisten nicht einmal wirklich mit einer passenden Überleitung verbunden, und der Fluss wird zu oft durch das Hin und Her zwischen den Sprechern unterbrochen. In der zweiten Episode beginnen sie beispielsweise an einem Punkt mit einem Thema und wechseln dann plötzlich zu einem völlig anderen. Ich habe die erste Version meiner Freundin vorgespielt, und wir waren uns beide einig: So schön die Sprecher klingen, die Art, wie sie die Themen behandeln, wirkt abschreckend. Es klingt zu oberflächlich, was möglicherweise die Absicht des KI-Modells ist. In beiden Versionen wird zudem betont, ich hätte mir den Knöchel gebrochen. Ich habe über das Drama, das meine Freundin und ich erlebt haben, hier geschrieben.
Ein weiterer Aspekt, der mir aufgefallen ist: Wenn man mehrere Episoden generiert, erkennt man gewisse Bausteine, die sich häufig wiederholen. Das würde erklären, wie das Modell so schnell Episoden generieren kann. Dennoch ist das, was Google hier geschaffen hat, beeindruckend. Ich belasse es dabei.
Wenn ich über diese Technologie nachdenke, fällt mir auf, wie oft ich täglich große Sprachmodelle (LLM) nutze. Als Entwickler arbeite ich jetzt mit Co-Pilot in meiner IDE, chatte mit dem LLM wie Claude.ai oder ChatGPT über Code, Ideen und Technologien. In diesem Zusammenhang beobachte ich, wie soziale Netzwerke beginnen, KI-Nutzer einzusetzen, um Konversationen zu füllen. Wohin wird das führen, frage ich mich. Die DEAD INTERNET-Theorie besagt, dass irgendwann nur noch autonome Accounts Inhalte auf sozialen Plattformen erstellen. Twitter hat gezeigt, dass nicht einmal verifizierte Account-Systeme Bestand haben, wenn sie im Interesse eines Kapitalisten übernommen werden. Wenn ich einem anderen Nutzer nicht vertrauen kann, dass er menschlich ist, warum sollte ich dann Inhalte auf der Plattform konsumieren?
Außerdem kaufen große Tech-Unternehmen alte Kernreaktoren auf und starten sie neu, um ihren Energiebedarf zu decken. Das erinnert mich an den letzten CCC in Hamburg, der einen interessanten Vortrag über die Klimakosten des KI-Hypes hatte.
Lass uns mit meinem Lieblingsmotto aus den Podcasts abschließen: „Keep diving deep“
Hier ist der Vortrag: Es sind mehrere Audiotracks verfügbar.