DeepSeek drängt auf die Erweiterungsstrategie von Gemini, die Suchfunktion von ChatGPT ist kostenlos und offen und KI beginnt einen Gewinnbeteiligungskrieg

Februar 6, 2025 Eskere Guru

Ende letzten Jahres brachte Google Deepmind das Gemini 2.0 Flash-Modell für die Ära der intelligenten Agenten auf den Markt und trat damit mit einem Fuß in die 2.0-Ära. Nach zwei Monaten wurde die Gemini 2.0-Familien-Bucket-Serie endlich offiziell eingeführt.

Diese Version, die durch den „Catfish-Effekt“ von DeepSeek katalysiert wird, unterscheidet sich von der üblichen Version. Sie verbessert nicht nur die Leistung, sondern stellt auch die Kosteneffizienz von KI in den Vordergrund und umfasst auch multimodale Funktionen.

Im Bereich der neuesten Großmodelle liegt Gemini-2.0-Pro in allen Kategorien auf Platz 1, Gemini-2.0-Flash auf Platz 3 und Flash-lite aufgrund seines hervorragenden Preis-Leistungs-Verhältnisses unter den Top Ten.

Demis Hassabis, CEO von Deepmind, schrieb:

Spannende Fortschritte! Wir sind bestrebt, die Kosten zu senken und gleichzeitig die Qualität ständig zu verbessern. Die Gemini 2.0-Serie ist ein Spitzenmodell in Bezug auf Preis/Leistung und Leistung. Mit der heutigen Veröffentlichung kann jeder von ihren leistungsstarken Argumentations- und multimodalen Fähigkeiten profitieren, die auch den Grundstein für unsere intelligente Arbeit legen.

Die Hauptmerkmale der Modelle der Gemini 2.0-Serie sind wie folgt:

2.0 Pro Experimental: konzentriert sich auf die Codierungsleistung und die Fähigkeit, mit komplexen Eingabeaufforderungen umzugehen, und schneidet gut beim Wissensverständnis und logischen Denken ab.
2.0 Flash: Bietet eine API-Schnittstelle speziell für Entwickler, um die schnelle Erstellung von Apps zu unterstützen.
2.0 Flash-Lite: Erzielen Sie eine bessere Kosteneffizienz und Reaktionsfähigkeit bei gleichzeitig hoher Leistung.
2.0 Flash Thinking Experimental: Es ist jetzt in der Gemini-App verfügbar, damit Benutzer es erleben können.

Was können Sie mit weniger als 1 $ machen? Das neue Modell von Google kann 40.000 Bilder beschriften

Insbesondere die Familienschaufelmodelle der Gemini 2.0-Serie haben jeweils ihre eigenen Eigenschaften.

Darunter unterstützt Gemini 2.0 Flash, das vollständig veröffentlicht wurde, multimodale Eingaben und Textausgaben, verfügt über ein Kontextfenster von 1 Million Token und unterstützt strukturierte Ausgaben, Funktionsaufrufe, Codeausführung und andere Funktionen.

Es ist erwähnenswert, dass sich die multimodale Echtzeit-API noch im „Beta“-Stadium befindet und auch Bild- und Audioausgabefunktionen später eingeführt werden.

Der Preisplan für dieses Modell wurde ebenfalls festgelegt, wobei für die Text-, Bild- und Videoeingabe 0,10 US-Dollar pro Million Token und für die Audioeingabe 0,70 US-Dollar berechnet werden (offiziell gültig ab 20. Februar). Die Textausgabe kostet 0,40 US-Dollar pro Million Token.

Auch die Cache-Gebühren aller Art werden auf einem niedrigen Niveau gehalten. Text-/Bild-/Video-Caching kostet 0,025 US-Dollar pro Million Token, und Audio-Caching kostet 0,175 US-Dollar.

Auf dieser Basis brachte Google auch eine kostengünstigere „Lightweight-Version“ auf den Markt – Gemini 2.0 Flash-Lite.

Obwohl dieses Modell bestimmte Kompromisse bei der Funktionalität eingegangen ist und derzeit keine multimodalen Echtzeit-APIs, Suchtools und Codeausführung unterstützt, behält es ein Kontextfenster von 1 Million Token sowie Kernfunktionen wie multimodale Eingabe, Textausgabe und Funktionsaufrufe bei.

Die Preise sind günstiger: Text-, Bild- und Videoeingaben kosten nur 0,075 US-Dollar pro Million Token und sind damit fast ein Drittel günstiger als die Standardversion. Die Audioeingabe kostet ebenfalls 0,075 US-Dollar, die Textausgabe 0,30 US-Dollar, das Text-/Bild-/Video-Caching kostet nur 0,01875 US-Dollar pro Million Token und das Audio-Caching kostet 0,175 US-Dollar.

Zum Vergleich: Das DeepSeek-V3-Modell kostet jetzt 0,014 US-Dollar pro Million Token, wenn es auf den Cache trifft. Ab dem 8. Februar wird der Preis auf das Niveau von 0,07 US-Dollar pro Million Token zurückkehren. Diese Anpassung könnte auch einer der wichtigen Faktoren sein, die Google dazu veranlasst haben, seine aktuelle Preisstrategie zu formulieren.

Laut Google betragen die Kosten für die Verwendung dieses Modells zur Generierung von Untertiteln für 40.000 einzigartige Bilder weniger als 1 US-Dollar.

An der Spitze der Produktlinie steht die Gemini 2.0 Pro Experimental-Version. Dieses Modell verfügt über ein großes Kontextfenster von 2 Millionen Token, was der gleichzeitigen Verarbeitung von etwa 1,5 Millionen Wörtern entspricht, was mehr als genug ist, um die gesamten sieben Bücher der „Harry Potter“-Reihe gleichzeitig zu verarbeiten.

Funktionell ist es auch der vielseitigste Player, der nicht nur multimodale Eingaben und Textausgaben unterstützt, sondern auch umfassende Funktionen wie strukturierte Ausgabe, Funktionsaufrufe, Suchtools und Codeausführung bietet.

Was Leistungstests angeht, schneidet die Gemini 2.0-Serie gut ab.

Im MMLU-Pro-Test lag 2.0 Pro Experimental mit einer Punktzahl von 79,1 % an der Spitze, während 2.0 Flash Lite Preview und 2.0 Flash GA 71,6 % bzw. 77,6 % erreichten.

In Bezug auf Codegenerierung, Mathematik und Mehrsprachigkeit schnitt 2.0 Pro Experimental ebenfalls gut ab, insbesondere in den Bereichen Mathematik (91,8 %) und Mehrsprachigkeit (86,5 %).

Leider bleibt selbst die leistungsstärkste Gemini 2.0 Pro Experimental-Version weit hinter dem OpenAI o3-Modell zurück und hat das von der Außenwelt erwartete „Kurvenüberholen“ nicht abgeschlossen.

Einige Internetnutzer glauben jedoch, dass der aktuelle Leistungsvergleich möglicherweise nicht ganz angemessen ist, da Gemini 2.0 Pro kein typisches CoT-Modell ist.

Die Hauptvorteile dieser Modelle sind ihre schnelle Reaktionsfähigkeit und ihre geringen Kosten, wodurch sie sich besonders für spezifische Aufgaben wie die Erkennung oder Klassifizierung benannter Entitäten eignen. Mit der bevorstehenden Einführung neuer Funktionen wie Bildgenerierung und Text-to-Speech werden die Einsatzszenarien der Gemini 2.0-Serie weiter erweitert.

Diese neuen Modelle stehen jetzt Entwicklern in Google AI Studio und der Vertex AI-Plattform sowie Gemini-Power-Usern auf ihren Geräten zur Verfügung.

Schlangenkampf, springender Ball, Gemini 2.0 kann immer noch so spielen

Wer hat gesagt, dass KI nur trockene Antworten geben kann? Mit der Einführung von Gemini 2.0 Family Bucket können Internetnutzer es kaum erwarten, neue Streiche zu spielen.

Möchten Sie zum Beispiel einen Schlangenkampf sehen? Lassen Sie Gemini 2.0 mithilfe von Code ein Snake-Spiel entwerfen.

Oder das Gemini Flash Thinking-Modell ist das erste Inferenzmodell, das Zugriff auf YouTube hat, und es unterstützt auch Google-Such- und Kartenfunktionen.

In Bezug auf die Bildwiedergabe bat ein Entwickler das Modell, ein Skript mit p5.js zu schreiben, das eine dreidimensionale Szene mit 100 dynamisch springenden gelben Bällen generierte. Darüber hinaus müssen die gelben Kugeln im Inneren der Kugel korrekt miteinander kollidieren können, die Kugel muss sich langsam drehen und immer innerhalb der Kugel bleiben.

Wir haben auch kurz mehrere neue Modelle erlebt, die dieses Mal im Google AI Studio veröffentlicht wurden. Die Reaktionsgeschwindigkeit dieser neuen Modelle ist recht hoch. Was die Wirkung betrifft, ist sie wirklich schwer zu beurteilen.

Während Gemini seine Muskeln spielen lässt, setzt auch OpenAI, das oft ein Scharfschütze ist, seine Anstrengungen fort.

Heute gab OpenAI am frühen Morgen bekannt, dass die Deep Research-Funktion allen Pro-Benutzern, einschließlich Großbritannien, der EU, Norwegen, Island, Liechtenstein, der Schweiz und anderen Regionen, vollständig offen steht. Außerdem vergießen Benutzer vor Neid Tränen.

Darüber hinaus steht die Suchfunktion von ChatGPT nun allen Nutzern offen und kann ohne Registrierung genutzt werden, was die Nutzerschwelle weiter senkt.

Bevor Sie das Modell aufrollen, können Sie jedoch auch zuerst die Benennung des KI-Modells aufrollen. Ob es sich um die Gemini-Serie oder die GPT/o-Serie von OpenAI handelt, da neue Modelle nacheinander auftauchen, sind auch die verschiedenen Versionsnummern und Benennungsregeln verblüffend.

Als Sam Altman, CEO von OpenAI, letztes Jahr nach der Namensstrategie für die Produkte des Unternehmens gefragt wurde, gab er auch zu, dass dies ziemliche Kopfschmerzen bereitete.

Einschließlich Anthropic-CEO Amodei sagte einmal, dass, obwohl Claudes Benennungsmethode in den frühen Tagen gut aussah, mit der schnellen Iteration und Aktualisierung des Modells auch das noch verwendete Benennungssystem überdehnt wurde.

Er wies darauf hin, dass derzeit kein KI-Unternehmen wirklich „das Namensproblem gelöst“ habe und alle hart daran arbeiten, einfachere und klarere Namensmethoden zu finden. Dies könnte auch ein seltener Konsens unter KI-Giganten sein.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo