Ich lasse Gemini komplexe Recherchen in Podcasts umwandeln. Ich werde nie wieder zurückkehren

Der Wandel weg vom Google Assistant und hin zur Gemini-Ära befindet sich fast in seinem letzten Stadium. Man kann angesichts des gleichnamigen virtuellen Assistenten nostalgisch werden, aber es ist unbestreitbar, dass die Ankunft von Gemini wirklich verändert hat, was ein KI-Agent für uns tun kann.

Das Sprachverständnis ist bei Zwillingen weitaus besser .Gespräche sind natürlich , App-Interaktionen sind flüssig, die Integration mit anderen Google-Produkten ist lohnenswert und selbst im kostenlosen Zustand bringt Gemini Siri selbst auf einem iPhone zum Putzen .

Es gibt jedoch ein paar Tricks, die Zwillinge in eine ganz andere Liga bringen. Deep Research ist eine dieser Agentenfunktionen , die ich täglich nutze und über die ich immer wieder erstaunt bin. Im März fügte Google dem Gemini-Arsenal eine weitere lohnende Funktion hinzu: Audioübersichten.

Alles in einen Podcast verwandeln

Audio-Übersichtsaufforderung in Gemini.
Nadeem Sarwar / Digitale Trends

Stellen Sie sich vor, Sie verwandeln Ihre eintönigen Dokumente, offensichtlich komplexen Forschungsarbeiten oder wissenschaftlichen Lesestoff in einen lebhaften wechselseitigen Podcast-Chat. Genau darum geht es bei Audio Overviews. Die Funktion erschien erstmals auf dem stark unterschätzten NotebookLM von Google und wurde schließlich auf das Kernerlebnis von Gemini auf Mobilgeräten und im Internet portiert.

Sie müssen keine technischen Hürden in Kauf nehmen oder eine hyperspezifische Textaufforderung schreiben, um diese Audio-Überarbeitungen zu erhalten. Laden Sie einfach eine Datei aus der Anhangsauswahl hoch und Sie sehen einen Chip „Audioübersicht generieren“ direkt über dem Chat-Feld. Tippen Sie darauf und die Podcast-Generierung beginnt.

Der Vorgang kann einige Minuten dauern, aber in der Zwischenzeit können Sie sicher zu einer anderen App (oder einem anderen Fenster) wechseln. Sobald der Vorgang abgeschlossen ist, erhalten Sie eine Benachrichtigung darüber, dass der Podcast für Ihr Hörvergnügen oder das Teilen mit anderen Personen bereit ist.

Bei der Audioübersicht handelt es sich in der Regel um einen frei fließenden Zwei-Personen-Chat in einem unheimlich natürlichen Ton. Es fühlt sich fast so an, als würden Sie mit Gemini Live chatten, was sich deutlich natürlicher anfühlt als jeder KI-Chatbot, den ich bisher im Sprachkonversationsmodus verwendet habe.

Diese KI-generierten Podcasts sind im Allgemeinen ziemlich gut gemacht, würde ich sagen. Aber ich fühle mich aus mehreren Gründen zu ihnen hingezogen. Zuerst starre ich auf einen Bildschirm, lese Artikel zur Recherche und schreibe meine eigenen Sachen, fast den ganzen Tag.

Gemini-Podcast-Erstellung in Bearbeitung.
Nadeem Sarwar / Digitale Trends

Das lässt wenig Spielraum für die Auseinandersetzung mit weiterem textbasierten Material, sei es akademischer, arbeitsbezogener oder sogar freizeitbezogener Art. Wenn ich jedoch einfach den sensorischen Modus ändern könnte, um mich mit diesem Material auseinanderzusetzen, tritt meine Lesemüdigkeit in den Hintergrund.

Audio-Podcasts bieten eine völlig neue Möglichkeit, sich auf immersivere Weise mit textbasiertem Material auseinanderzusetzen. Das bringt uns zum zweiten Vorteil, nämlich der sensorischen Stimulation oder Varianz. Diese Formel ist im akademischen und professionellen Coachingbereich gut dokumentiert und experimentiert worden.

Wie hat es mir geholfen?

Die Textmüdigkeit fordert ihren Tribut. Dadurch erscheint selbst spannende Arbeit wie eine lästige Pflicht, die Sie hinter sich lassen müssen, nur weil Sie es sich nicht leisten können, darauf zu verzichten. Die Auseinandersetzung mit demselben Werk oder seinem Wesen über ein anderes sensorisches Medium unterdrückt jedoch die Angst vor einer Überlastung mit mehr textbasiertem Material. Es hilft tatsächlich auf einige andere Arten.

„Die Einbeziehung mehrerer Sinne stärkt das Gedächtnis. Wenn wir zuhören und interagieren – sei es durch Lesen, Schreiben oder Handeln – baut das Gehirn stärkere Verbindungen auf, sodass wir uns später leichter erinnern können“, sagt Yasir Naseem, ein Linguistikexperte, dessen Forschungsarbeit sich auf die Modernisierung und Gamifizierung von Lehrmethoden konzentriert.

Naseem, derzeit Lehrplanexperte bei einem führenden Bildungstechnologieunternehmen, sagt mir, dass man sich beim Lernen nicht nur auf ein einziges Medium verlassen kann. Stattdessen, sagt er mir, müsse man verschiedene Methoden kombinieren, um den größtmöglichen Nutzen zu erzielen, von sentimentalen Effekten bis hin zur Erinnerungserhaltung.

Zwillinge erstellen Audioübersicht.
Nadeem Sarwar / Digitale Trends

In der Fachzeitschrift „Computers & Education“ veröffentlichte Forschungsergebnisse verdeutlichten außerdem, dass Studierende Audiodateien als überlegenes Lern- und Wiederholungsmaterial empfanden. Flexibilität und sensorische Vielseitigkeit spielten eine wichtige Rolle bei ihrer Vorliebe für Podcasts gegenüber anderen Medien.

„Echtes Verständnis und langfristiges Behalten entstehen, wenn das Zuhören mit visuellen Bildern, Diskussionen oder praktischen Aktivitäten gepaart wird“, fügt Naseem hinzu. Meine eigenen Erfahrungen mit den Audioübersichten von Gemini spiegeln seinen Rat wider. Ich kann mich besser an das Wissen erinnern, das ich durch die Audio-Podcasts aufgenommen habe, als wenn ich dasselbe Material gelesen habe .

Sie sehen, diese Audio-Podcasts sind keine einfache Text-zu-Audio-Konvertierung. Stattdessen zerlegen sie eine ansonsten langweilige Textwand in ein Zwei-Personen-Gespräch, bei dem Sie im Wesentlichen der einzige Zuhörer sind. Es ist ein Segen für jedes textbasierte Material, das Ihre Neugier nicht sofort weckt und Sie zum sofortigen Lesen anregt.

In meinem letzten Experiment hat mir der Audio-Podcast von Gemini geholfen, die Bedeutung eines Artikels zu verstehen, in dem es um „einen Rahmen für interpretierbares neuronales Lernen basierend auf lokalen informationstheoretischen Zielfunktionen“ geht. Vereinfacht ausgedrückt diskutierte die Forschung, wie Nervenzellen sich selbst organisieren.

Du verstehst, worauf ich hier hinaus will, oder?

Bequemlichkeit vor allem

Gemini AI erstellt einen Audio-Podcast aus Forschungsarbeiten.
Nadeem Sarwar / Digitale Trends

Bequemlichkeit spielt bei der Informationsaufnahme eine wichtige Rolle. Und das Gleiche gilt für die Begeisterung und Begeisterung für den gesamten Prozess. Laut einem in der Zeitschrift Computers in Human Behavior veröffentlichten Artikel verbessern Podcasts „den Komfort, die Flexibilität und den Zugang zu Informationen und Wissen“. Es dauerte nicht lange, bis mir das klar wurde.

Da ich in der Landeshauptstadt lebe, ist es für mich Alltag, zwischen zwei und drei Stunden im Stau oder auf dem öffentlichen Weg zur Arbeit zu stehen. Aber mehr als die Unbequemlichkeit ist es die verschwendete Zeit, die am meisten schmerzt. Audio-Lernmaterial bietet die bequemste Möglichkeit, diese Zeit produktiv zu nutzen.

Mit Zwillingen haben Sie einen weiteren entscheidenden Vorteil. Sie müssen sich nicht auf die Audioverfügbarkeit eines bestimmten Buchs, Nachrichtenartikels oder wissenschaftlichen Materials verlassen. Sie können einfach alles herunterladen, was Ihnen zur Verfügung steht, und Gemini verwandelt es in ein Gespräch im Podcast-Stil.

Es gibt zahlreiche multidisziplinäre Forschungsergebnisse, die die Vorteile eines audiobasierten Lernansatzes belegen. Dabei geht es nicht nur ums Zuhören, sondern vielmehr darum, Dinge aufzuschlüsseln und auf eine zugänglichere Art und Weise zu präsentieren.

„Einige Leute haben gesagt … es gefällt ihnen, dass wir ihnen etwas geben, was sie nicht in der Zeitung lesen. Sie mögen die Tatsache … wir versuchen, uns auf eine andere Art und Weise vorzustellen“, heißt es in einer Forschungsarbeit, in der ein Nachrichtenredakteur zitiert wird. Der mit freundlicher Genehmigung der Syracuse University erstellte Artikel wurde 2006 in den Anfängen des Podcast-Trends veröffentlicht.

Generieren eines Audio-Übersichts-Podcasts in Gemini.
Nadeem Sarwar / Digitale Trends

Ab 2025 sind Podcasts zu einem wahren Phänomen für den Konsum von Informationen geworden, von Lehrmaterial bis hin zu Unterhaltungsinhalten. Laut dem Pew Research Center beschäftigt sich fast die Hälfte der Amerikaner mit Podcasts. Über die Hälfte des befragten Publikums hörte Podcasts zum Lernen, zur Unterhaltung oder um Audiomaterial zu haben, während man etwas anderes tat.

Fast ein Drittel wollte die Meinung anderer hören, und ein weiterer ebenso großer Teil wurde zugeschaltet, um Nachrichten und aktuelle Ereignisse im Auge zu behalten. Mein Engagement entfernte sich nicht allzu weit von dem oben genannten Muster. Für lange journalistische Geschichten oder investigative Arbeiten fand ich die Podcast-Version oft angenehmer.

Auch effektiver

Interessanterweise schienen Podcasts auch praktische Veränderungen voranzutreiben. Etwa zwei Drittel der Zuhörer beschäftigten sich mit einem Buch oder Film, nachdem sie einen Podcast gehört hatten, mehr als die Hälfte der Zuhörer begann, einer Person in den sozialen Medien zu folgen, und ein Drittel von ihnen änderte ihren Lebensstil, indem sie beispielsweise Sport trieben oder ihre Ernährung umstellten.

Im Journal of Social Media Marketing veröffentlichte Forschungsergebnisse beleuchteten Konzepte wie Mediensubstitution und funktionale Ähnlichkeit im Kontext des Medienhörens und der Bereitschaft des Publikums. Die übergeordnete Idee besteht darin, dass Benutzer das Medium bewerten und das für sie am besten geeignete auswählen.

„Für die Einzigartigkeit von Podcast-Inhalten ist der Einfluss auf die Hörbereitschaft und Mediensubstitution positiv, was darauf hindeutet, dass einzigartige Inhalte, hohe Qualität und große Diversität Menschen dazu bringen, Podcasts zu hören“, heißt es in dem Papier. Auch ich persönlich kann diesen Befund bestätigen.

In den letzten Tagen habe ich zahlreiche Forschungsarbeiten per „Podcast“ gesendet, in denen ich die Auswirkungen des Verzehrs von Ballaststoffen, Fleisch und verpackten Lebensmitteln auf Schlafmuster, kognitive Gesundheit und Darmgesundheit erörtere. Im Vergleich zum offensichtlich technischen Ton wissenschaftlicher Arbeiten hatte die Tatsache, dass zwei Moderatoren die Ergebnisse mit einem „sentimentalen“ und „überzeugenden“ Ton darlegten, eine deutlich tiefere Wirkung auf mich.

Stellen Sie sich vor, Sie lernen in einem Buch etwas über soziale Etikette oder kulturelle Empfindlichkeiten. Und Jahre später, sie mit eigenen Augen in Aktion zu sehen. Oder denken Sie darüber nach, eine Fremdsprache ganz alleine aus einem Buch zu lernen, und welchen Unterschied es macht, wenn Sie sie von einer Person lernen, die Ihnen all dieses Wissen in die Ohren legt.

Der letztere Ansatz führt zu besseren Ergebnissen. Und das liegt vor allem daran, dass die Gesamtwirkung der multisensorischen Interaktion den Lernprozess beschleunigt oder ihn einfach effektiver macht. Die Audio-Übersichten von Gemini haben einen ähnlichen Effekt erzeugt und mir sehr geholfen.

Ein paar Haken

So produktiv das alles auch klingt, die Audioübersichten von Gemini sind es nicht. Sie können bei der „Podcastifizierung“ einer geschmackvoll geschriebenen Geschichte die wahre Essenz entziehen oder ein paar kleine Details außer Acht lassen. Es gibt auch ein paar funktionale Besonderheiten. Die Länge der Audioübersicht, die direkt der Tiefe des Ausgangsmaterials entspricht, kann recht zufällig sein.

Antwort bereitgestellt von Gemini Deep Research.
Die Art von Forschungsarbeit, die Sie in Podcasts umwandeln können. Nadeem Sarwar / Digitale Trends

Als ich ihm beispielsweise ein 260-seitiges Buch zum Thema Konjugationen und Morphologie von Verben in der persischen Sprache vorlegte, war die von Gemini generierte Audioübersicht etwas mehr als sieben Minuten lang. Qualitativ wurden die wichtigsten Teile abgedeckt, aber die feineren Details wurden vernachlässigt.

In einem anderen Fall habe ich ein vierseitiges Deep Research-Dokument in einen Audio-Podcast umgewandelt. Die Dauer betrug hier etwa 13 Minuten. Leider können Sie mit dem automatischen Task-Chip von Gemini die Länge oder Gesprächstiefe der Audioübersicht nicht anpassen.

Wenn Sie Google NotebookLM verwenden, wo die Audioübersichtsfunktion zum ersten Mal erschien, können Sie eine Eingabeaufforderung schreiben, die vorgibt, wie tief die Podcast-Konversation geht. Ich habe vor ein paar Wochen einen Audio-Podcast mit einer Laufzeit von 59 auf NotebookLM erstellt.

Zwillinge lassen das nicht zu. Noch nicht.

Erster Schritt der Gemini-Verarbeitung einer PDF-Datei in der Files by Google-App.
Automatische Dokumentenerkennung durch Gemini in der Dateien-App. Nadeem Sarwar / Digitale Trends

Dann haben wir noch die Sprachbarriere, da Google derzeit dabei ist, die gesamte Pipeline über die englische Sprache hinaus zu verfeinern. Ein weiteres Problem war die anglisierte Aussprache. Beispielsweise hat der AI-Podcast-Moderator die persische Welt „Raf-thin“ fälschlicherweise als „Raaf-tin“ ausgesprochen.

Für ein ungeübtes Ohr, das nicht mit den zweisprachigen Nuancen der Englisch-Persisch-Übersetzung vertraut ist oder weiß, wie Akzente die Hörwahrnehmung von Wörtern in einer anderen Sprache verändern, könnten die KI-Podcast-Moderatoren durchaus völliges Kauderwelsch von sich geben.

Die Summe meiner Erfahrungen ist, dass Gemini Audio Overviews keine Revolution sind. Sie bieten einfach ein anderes und fesselnderes Medium, um sich mit Inhalten auseinanderzusetzen. Es klappt zwar nicht immer, aber es lindert auf jeden Fall die Langeweile, seitenlange Texte durchzulesen, die einen sonst einschläfern würden.