Googles KI hat gerade Ohren bekommen

KI-Chatbots sind bereits in der Lage, die Welt durch Bilder und Videos zu „sehen“. Doch jetzt hat Google im Rahmen seines neuesten Updates für Gemini Pro Audio-to-Speech-Funktionen angekündigt. In Gemini 1.5 Pro kann der Chatbot nun in sein System hochgeladene Audiodateien „hören“ und dann die Textinformationen extrahieren.
Das Unternehmen hat diese LLM-Version als öffentliche Vorschau auf seiner Vertex AI-Entwicklungsplattform verfügbar gemacht. Dies wird es mehr unternehmensorientierten Benutzern ermöglichen, mit der Funktion zu experimentieren und ihre Basis nach einer eher privaten Einführung im Februar, als das Modell erstmals angekündigt wurde, zu erweitern. Dies wurde ursprünglich nur einer begrenzten Gruppe von Entwicklern und Unternehmenskunden angeboten.
1. Ein langes Video aufschlüsseln und verstehen
Ich habe den gesamten NBA-Dunk-Wettbewerb von gestern Abend hochgeladen und gefragt, welcher Dunk die höchste Punktzahl hat.
Gemini 1.5 war unglaublich in der Lage, den perfekten 50-Dunk und die Details allein aufgrund seines langen Kontextvideoverständnisses zu finden! pic.twitter.com/01iUfqfiAO
– Rowan Cheung (@rowancheung) 18. Februar 2024
Google teilte die Details zum Update auf seiner Cloud Next-Konferenz mit, die derzeit in Las Vegas stattfindet. Nachdem Google den Gemini Ultra LLM, der seinen Gemini Advanced-Chatbot antreibt, als das leistungsstärkste Modell seiner Gemini-Familie bezeichnet hat, bezeichnet Google nun Gemini 1.5 Pro als sein leistungsfähigstes generatives Modell. Das Unternehmen fügte hinzu, dass diese Version besser lernfähig sei, ohne dass das Modell zusätzlich optimiert werden müsse.
Gemini 1.5 Pro ist multimodal, da es verschiedene Arten von Audio in Text umwandeln kann, darunter Fernsehsendungen, Filme, Radiosendungen und Aufzeichnungen von Telefonkonferenzen. Es ist sogar mehrsprachig, da es Audio in mehreren verschiedenen Sprachen verarbeiten kann. Der LLM kann möglicherweise auch Transkripte aus Videos erstellen. Allerdings kann die Qualität unzuverlässig sein, wie von TechCrunch erwähnt .
Bei der ersten Ankündigung erklärte Google, dass Gemini 1.5 Pro ein Token-System zur Verarbeitung von Rohdaten verwende. Eine Million Token entsprechen etwa 700.000 Wörtern oder 30.000 Codezeilen. In medialer Form entspricht es einer Stunde Video oder etwa 11 Stunden Audio.
Es gab einige private Vorschau-Demos von Gemini 1.5 Pro, die zeigen, wie das LLM bestimmte Momente in einem Videotranskript finden kann. Beispielsweise erhielt der KI-Enthusiast Rowan Cheung frühzeitig Zugang und erläuterte detailliert, wie seine Demo eine exakte Actionaufnahme in einem Sportwettkampf fand und fasste das Ereignis zusammen, wie im oben eingebetteten Tweet zu sehen ist.
Google stellte jedoch fest, dass andere Early Adopters, darunter United Wholesale Mortgage, TBS und Replit, sich für stärker unternehmensorientierte Anwendungsfälle entscheiden, wie z. B. die Hypothekenübernahme, die Automatisierung der Metadaten-Kennzeichnung sowie die Generierung, Erläuterung und Aktualisierung von Code.