Googles Gemini AI kann jetzt Audiodateien verarbeiten und darüber sprechen

Googles Gemini- KI ist multimodal, das heißt, sie kann Dateien in verschiedenen Formaten verarbeiten und generieren – von Text und Bildern bis hin zu Videos . Obwohl sie Audio generieren kann, fehlte ihr bisher die Fähigkeit, von Nutzern hochgeladene Audiodateien zu verarbeiten. Das ändert sich nun endlich, denn mit Gemini können Sie nun Audiodateien eingeben und darüber sprechen.

Was ist die große Veränderung?

Die Möglichkeit, Audiodateien hochzuladen, ist jetzt auch in der mobilen Gemini-App und der Webversion verfügbar. Tippen Sie in der Gemini-Chat-Blase auf das „+“-Symbol und laden Sie den Audioclip hoch, indem Sie das clipförmige Datei-Upload-Symbol auswählen. Diese Funktion ist übrigens für alle Gemini-Nutzer kostenlos.

Laut der Support-Seite von Google können Sie Audioclips mit einer Länge von bis zu zehn Minuten hochladen. Wenn Sie jedoch für die Pakete Gemini AI Pro oder Ultra bezahlen, können Sie Audiodateien mit einer Laufzeit von bis zu drei Stunden hochladen.

Falls Sie neugierig sind, welche anderen Dateiformate Sie in Gemini eingeben können, finden Sie hier eine kurze Übersicht:

  • Bis zu 10 Dateien auf einmal, einschließlich ZIP-Dateien.
  • Video mit einer Größe von bis zu 2 GB. 5 Minuten Länge für kostenlose Benutzer und 1 Stunde für zahlende Kunden.
  • Ein Codeordner oder ein GitHub-Repository (bis zu 5.000 Dateien / 100 MB Größe)

Ein Segen für die Bibliophilen

Nicht jeder liebt es, sich in ein Hörbuch, einen Podcast oder eine Vorlesungsaufzeichnung zu vertiefen. Manchmal sind es die langen Textwände, die die wahre Magie entfalten oder die kognitive Komfortzone bilden. Wenn Sie zu den Menschen zählen, die nach akustischer Befreiung suchen, ist dieses Gemini-Feature-Update ein wahrer Segen. Und ja, die Audiounterstützung geht über die englische Sprache hinaus, wie Sie im folgenden Beitrag sehen können.

Ob Sie nun eine lange Vorlesung zusammenfassen oder nur einige wenige konkrete Punkte aus einem Podcast extrahieren möchten – Gemini verarbeitet den Ton und liefert Ihnen genau das, was Sie brauchen. Sie können Gemini bitten, lange Berichte oder kurze Briefings zu schreiben oder den Text in Wissensfolien umzuwandeln, die Sie als Bilder exportieren können.

Am anderen Ende der Leitung haben wir das fantastische Tool NotebookLM . Es kann Ihre langen Textdateien in einen ansprechenden Audio-Podcast für zwei Personen verwandeln. Wenn Sie Videoübersichten bevorzugen, ist das ebenfalls möglich. Nutzen Sie außerdem das kostenlose Angebot Gemini AI Pro, das Google Studierenden in zahlreichen Ländern, darunter auch den USA, anbietet.