Zerstört Gemini, das leistungsstärkste Modell in der Geschichte von Google, GPT-4 wirklich?

Dezember 7, 2023 Eskere Guru

Letzte Nacht veröffentlichte Google plötzlich sein Blockbuster-KI-Killer-Tool – Gemini.

Multimodale Zwillinge können verschiedene Arten von Informationen verstehen, manipulieren und kombinieren, darunter Text, Code, Audio, Bilder und Video.

Weniger als zwei Wochen nach der Veröffentlichung von ChatGPT im letzten Jahr hatte Google bereits „Alarmstufe Rot“ ausgelöst, um der Herausforderung zu begegnen. Aber Bard, das dringend eingeführt wurde, machte bei seinem Debüt einen Fehler, der dazu führte, dass Google über Nacht 100 Milliarden US-Dollar an Marktwert verlor.

Im vergangenen Jahr haben Chatbots, die auf großen Modellen basieren, mehr als 2 Milliarden monatliche Besuche erhalten, wobei ChatGPT weit vorne liegt. Obwohl Google Bard an zweiter Stelle steht, ist es zusammen mit mehreren Konkurrenzprodukten passender, als „andere“ eingestuft zu werden. .

▲ Bild von: The Information

Gemini hat daher schon lange große Hoffnungen darauf gesetzt, mit ChatGPT gleichzuziehen. Unabhängig von Erfolg oder Misserfolg ist es das Ergebnis der verzweifelten Bemühungen von Google in der Vergangenheit, große KI-Modelle zu entwickeln.

Kann sehen, sprechen und argumentieren

Gemini 1.0 hat offiziell drei verschiedene Größen angekündigt: mittlere Körbchen, große Körbchen und extra große Körbchen.

Mittel: Gemini Nano – das effizienteste Modell für Gerätemissionen Groß: Gemini Pro – das beste Modell für vielfältige Missionserweiterungen Extra Groß: Gemini Ultra – das größte und leistungsfähigste Modell für hochkomplexe Aufgaben

Lassen wir die komplizierten Parameterinformationen vorerst beiseite und verwenden wir einige Beispiele, um Ihnen ein umfassendes Verständnis der Fähigkeiten von Gemini zu vermitteln.

Wenn Sie eine Ente nach dem Zufallsprinzip zeichnen, kann Zwillinge alles genau identifizieren, von der Kurve bis zur Form der Ente. Zeichnen Sie eine Wellenlinie für die Ente, und sie wird Ihre Bedeutung verstehen und die Antwort auf die Szene mit der im Wasser schwimmenden Ente genau angeben.

Gleichzeitig kann es auch Entenrufe auf humane Weise imitieren, selbst wenn Sie die Entenrufe fließend Mandarin sprechen können.

Wenn Sie sich langweilen, können Sie auch ein Spiel mit den Zwillingen spielen. Auf welches Gebiet Sie mit dem Finger zeigen, die Zwillinge werden Ihnen etwas über das Land und seine repräsentativen Dinge erzählen.

Die drei Unsterblichen kehren in die Höhle zurück. Erraten Sie, unter welchem Becher sich die Papierkugel befindet. Egal wie schnell Sie sich bewegen, vor den „Augen“ der Zwillinge können Sie sich nicht verstecken.

Wenn Sie das Garn bekommen, aber keine Ahnung haben, machen Sie sich keine Sorgen, das intelligente Gehirn von Gemini wird das fertige Produkt bereits für Sie arrangieren, sobald es das Garn sieht. Sie müssen nur „die Katze und den Tiger nachahmen“.

Das Erkennen von Bildern stellt nur die Grundstufe von Zwillingen dar. Wenn Sie Musikinstrumente sehen, können Zwillinge auch Musik erzeugen, die zur Atmosphäre der Umgebung passt.

Logik und Rätsellösung, Bildsequenzanalyse, Interpretation von Zaubertricks, Gedächtnis und Logik – Zwillinge verfügen über all diese Fähigkeiten und beherrschen sie alle.

Google hat auch eine Textdemonstrationsversion veröffentlicht. Wenn Sie das Video nicht ansehen möchten, können Sie https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html besuchen um es anzusehen.

Vielleicht ist dieses Video zu schockierend, und einige Internetnutzer haben die Möglichkeit in Frage gestellt, dass das Video von Google „gefälscht“ ist. Gemini wird jedoch bald in Google AI Studio für die Öffentlichkeit zugänglich sein, und dann kann die Authentizität erkannt werden.

Multimodaler Zwilling VS GPT-4

Laut Google-Beamten übertraf die Leistung von Gemini Ultra vom natürlichen Bild-, Audio- und Videoverständnis bis hin zum mathematischen Denken den aktuellen Stand der Technik in 32 weit verbreiteten akademischen Benchmarks für die Forschung und Entwicklung großer Sprachmodelle (LLM). Ergebnis.

Den von Google veröffentlichten Testergebnissen nach zu urteilen, übertraf die Leistung von Gemini den GPT-4 von OpenAI in Bereichen wie Text, konventionelles Denken, Mathematik und Codierung fast vollständig.

MMLU (Massive Multi-Task Language Understanding) ist eine der beliebtesten Methoden, um das Wissen und die Problemlösungsfähigkeiten von KI-Modellen zu testen. Gemini Ultra war das erste Modell, das menschliche Experten in diesem Test mit einer Genauigkeit von 90,0 % übertraf. Zum Vergleich: GPT-4 hatte nur eine Genauigkeit von 86,4 %.

Der neue MMMU-Benchmark-Test umfasst multimodale Aufgaben in verschiedenen Bereichen und weist einen höheren Testgrad großer multimodaler Modelle auf, Gemini Ultra erreichte jedoch auch eine hohe Punktzahl von 59,4 %.

In einem Interview mit MIT Technology Review sagte Sundar Picha, CEO von Google, dass einer der wichtigen Gründe, warum Gemini bemerkenswert ist, darin besteht, dass es sich grundsätzlich um ein multimodales Modell handelt. Genau wie Menschen lernt es nicht nur aus Text, sondern auch durch Videos. Audio und Code.

Multimodale Funktionen sind native Funktionen, an deren Weiterentwicklung Gemini viel Zeit investiert hat. Gemini 1.0 kann Text, Bilder, Audio und andere Informationen gleichzeitig erkennen und verstehen. Es ist besser in der Lage, Informationen zu verstehen und kann Fragen zu komplexen Themen problemlos beantworten. Im multimodalen SOTA-Test liegt Gemini mit seinem multimodalen Testniveau von Bild, Video und Audio erneut weit vorne.

Code ist einer der wichtigen Indikatoren zum Testen des Niveaus großer Modelle. Die Fähigkeit von Gemini 1.0, sprachübergreifend zu arbeiten und komplexe Informationen zu verstehen, ist seine Stärke, und es kann hochwertige Codes wie Python, Java, C++ verstehen , usw. Vor zwei Jahren brachte Google AlphaCode auf den Markt, das erste System zur KI-Codegenerierung, das bei Programmierwettbewerben konkurrenzfähiges Niveau erreichte.

Jetzt bringt AlphaCode seine zweite Generation auf den Markt, ein wettbewerbsfähiges Codierungsmodell, das von Gemini verfeinert wurde. Im Vergleich zum ursprünglichen AlphaCode auf derselben Plattform erzielte AlphaCode-2 87 % gegen menschliche Konkurrenten, während der vorherige AlphaCode nur 46 % erreichte.

Adresse des technischen AlphaCode-2-Berichts ：https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

In einem technischen Bericht teilte Google DeepMind (Hersteller von AlphaCode 2) eine Fülle von Details über sein Inferenzzeit-Such-, Filter- und Neubewertungssystem mit. Jim Fan, ein leitender Wissenschaftler bei NVIDIA, lobte diese neuesten Ergebnisse als Googles Q* (was einfach als großer Durchbruch in der KI verstanden werden kann).

Arman, CEO von thehiredai, machte eine mutige Vorhersage: „Gemini AI hat gerade ChatGPT getötet!“

Erwähnenswert ist, dass Google auch die Einführung des bisher leistungsstärksten, effizientesten und skalierbarsten TPU-Systems angekündigt hat: Cloud TPU v5p.

▲ Cloud TPU v5p

Das Training von Gemini 1.0 erfolgt auf der KI-Optimierungsinfrastruktur der von Google intern entwickelten Tensor Processing Units (TPUs) v4 und v5e.

Thomas Kurian, CEO von Google Cloud, lobte sein Produkt ohne zu zögern: „Cloud TPU v5p ist unser bisher leistungsstärkster und skalierbarster TPU-Beschleuniger, und seine Modelltrainingsgeschwindigkeit ist 2,8-mal schneller als beim Vorgänger.“

Neue Player bei Mobiltelefonmodellen

Mobiltelefone sind ein wichtiges Medium für den Durchbruch neuer Technologien. Wenn Zwillinge im großen Stil in die Massengesellschaft eintreten wollen, muss Pixel 8 die beste Wahl sein.

Als erstes Mobiltelefon mit integrierter künstlicher Intelligenz hat sich Pixel 8 Pro einen guten Ruf auf dem Weg zum zivilen High-Tech-Einsatz erarbeitet. Gemessen an den Rückmeldungen von Nutzern, die Pixel 8 Pro bereits verwendet haben, hat Google gute Arbeit geleistet Integration von KI in mobile Endgeräteanwendungen. .

Auf dieser Grundlage gab Google offiziell bekannt, dass Gemini Nano, ein mittelgroßes Modell, ab heute offiziell auf dem Pixel 8 Pro laufen wird.

Als die Nachricht bekannt wurde, konnte es PassionateGenius-CTO Morimoto kaum erwarten, große Modelle auf dem Pixel 8 zu betreiben.

Als erstes Smartphone, das speziell für Gemini Nano entwickelt wurde, verfügt Pixel 8 Pro über zwei exklusive Erweiterungsfunktionen, die in nachfolgenden Updates hinzugefügt werden: „Recorder Summary“ und „Gboard Smart Reply“.

Auch wenn keine Netzwerkverbindung besteht, kann der Rekorder Zusammenfassungen von Handy-Gesprächsaufzeichnungen, Interviews, Vorführungen etc. abrufen. Grundlage für die Unterstützung dieser Funktion ist eine leistungsfähige Endgeräte-Hardware, der optimierte Side-End-Algorithmus ermöglicht das „Weitermachen“. offline sein, auch wenn die Netzwerkverbindung getrennt ist.

Die Funktion „Intelligente Antwort“ ist der automatischen Antwort nach dem Auflegen sehr ähnlich, aber im Vergleich zum herkömmlichen festen Inhalt kann Gemini Nano den Inhalt des eingehenden Briefs identifizieren und entsprechende Antworten basierend auf verschiedenen Sätzen generieren. Die Sprache wird mehr Natürlich und freundlich, sodass es wie ein Star aussieht. Das Operationsteam reagiert auf die unmittelbaren Gefühle der Fans auf sozialen Plattformen.

Diese beiden Funktionen unterstützen derzeit nur die Erkennung von englischem Text, aber wenn ich darüber nachdenke, scheint es keine Auswirkungen auf diejenigen von uns zu haben, die keine Google-Telefone kaufen können. Allerdings auf Benutzer aus nicht englischsprachigen Ländern, die kaufen können Pixel 8 Pro muss noch einige Zeit warten.

Was die Produktivitätsoptimierung angeht, hat Pixel auf der anderen Seite des Ozeans endlich das Basisniveau in China erreicht.

Ähnliche KI-Bearbeitungsfunktionen für Fotos und Videos sind zum Synonym für die neuen Telefone von Google geworden, als die neuen Telefone auf den Markt kamen. Jetzt kann die kontinuierliche Optimierung der KI-Bearbeitungsoptimierungen dem Telefon einen neuen „professionellen Editor“ hinzufügen.

Eine neue Reinigungsfunktion kann dabei helfen, Flecken, Flecken und Falten aus gescannten Dokumenten zu entfernen. Jetzt können Sie mit nur wenigen Wischbewegungen in Ihrem Fotoalbum Flecken von Ihren Bildern entfernen.

Das Videoverbesserungsmodell auf Pixel 8 Pro nutzt die Leistung von Google Tensor G3 und kann Farbe, Beleuchtung, Stabilität und Granularität in der Cloud anpassen.

Dem offiziellen Display-Vergleich zufolge wurde dem Video ein „lebendiger“ Filter hinzugefügt, der die Farben satter und den Kontrast zwischen Hell und Dunkel höher macht. Besonders in dunklen Lichtumgebungen bei Nacht wird der Effekt dieser KI-Optimierung deutlicher .

Im Vergleich zur Videobearbeitung sollte die Bildverschönerung die Erwartung von mehr Menschen sein. Insbesondere beim Aufnehmen dynamischer Objekte werden Sie unscharfe Bilder immer bereuen, wenn Sie sie anschließend durchblättern. Die verbesserte KI-Bearbeitung kann Google-Fotos bearbeiten. Alle Unschärfen werden entfernt .

In Zukunft können Sie die Höhepunkte Ihrer Haustiere aufzeichnen, ohne Angst haben zu müssen, dass die Kamera nicht fokussiert.

Darüber hinaus hat Google auch die Verknüpfung mehrerer Geräte verbessert. Pixel Watch kann eine weitere Möglichkeit sein, Ihr Telefon zu entsperren. Außerdem kann es Ihnen dabei helfen, unerwünschte Anrufe zu ignorieren oder zu bestätigen, wer anruft und warum Sie anrufen, bevor Sie antworten.

Wenn Sie ein Pixel 8 Pro kaufen können oder bereits ein Google-Telefonnutzer sind, können Sie versuchen zu prüfen, ob diese neuen Funktionen ein Anreiz für Sie sein werden, Google zu kaufen oder weiterhin zu nutzen.

Ab heute wird Bard durch die neu aktualisierte Gemini Pro-Version über erweiterte Argumentations-, Planungs-, Verständnis- und andere Funktionen verfügen. Es wird in mehr als 170 Ländern und Regionen auf Englisch verfügbar sein.

In einem Interview mit MIT Technology Review sagte Sundar Pichai außerdem: „Gemini Pro hat in Benchmark-Tests sehr gut abgeschnitten, und ich kann persönlich seine Vorteile bei der Integration in Bard spüren. Wir haben es getestet und in allen Kategorien erhebliche Verbesserungen festgestellt.“ Aufgaben nennen wir es eines unserer bisher größten Upgrades.“

▲Derzeit verwendet Bard die Gemini Pro-Version. Das Bild stammt vom X-Benutzer @gijigae

In den nächsten Monaten wird Gemini nach und nach weitere Produkte und Dienste von Google auf den Markt bringen, etwa Suche, Werbung, Chrome und Duet AI.

Ab dem 13. Dezember können Entwickler und Unternehmenskunden über die Gemini API in Google AI Studio oder Google Cloud Vertex AI auf Gemini Pro zugreifen.

Derzeit befindet sich Gemini Ultra in internen Tests und plant, es Anfang nächsten Jahres Entwicklern und Unternehmensanwendern zugänglich zu machen. Anfang nächsten Jahres wird Google außerdem Bard Advanced auf den Markt bringen, um mehr normalen Benutzern die Nutzung des leistungsstärksten Gemini Ultra zu ermöglichen.

Sundar Pichai, CEO von Google, sagte bei der Einführung von Gemini:

Jeder technologische Wandel ist eine Chance, wissenschaftliche Entdeckungen voranzutreiben, den menschlichen Fortschritt zu beschleunigen und das Leben zu verbessern.
Ich glaube, dass der Wandel, den wir jetzt im Zusammenhang mit der KI erleben, der tiefgreifendste in unserem Leben sein wird, weitaus größer als die Veränderungen im Mobilfunk oder im Internet, die davor stattgefunden haben.

Wenn Sie AGI (künstliche allgemeine Intelligenz) realisieren möchten, benötigen Sie KI, um komplexe Aufgaben in verschiedenen Bereichen und Modi so ruhig wie der Mensch lösen zu können. Dabei sind neben grundlegendem Rechnen, Denken und anderen Grundfähigkeiten auch die entsprechenden Fähigkeiten erforderlich Auch multimodale Funktionen wie Bilder und Videos müssen mithalten.

DeepMind hat einen Rahmen für die AGI-Bewertung und -Klassifizierung vorgeschlagen. Die ersten beiden Stufen sind:

AGI-0: Grundlegende künstliche Intelligenz, die Intelligenz in bestimmten Bereichen und Aufgaben wie Bilderkennung, Verarbeitung natürlicher Sprache usw. zeigen kann, aber nicht bereichs- und modalitätsübergreifend lernen und argumentieren kann, noch kann sie mit Menschen und anderen KI-Systemen interagieren und kommunizieren arbeitet effektiv und natürlich zusammen und kann auch keine Emotionen und Werte wahrnehmen und ausdrücken.

AGI-1: Primäre allgemeine künstliche Intelligenz, die in der Lage ist, Intelligenz in mehreren Bereichen und Aufgaben zu zeigen, wie z. B. Frage und Antwort, Zusammenfassung, Übersetzung, Dialog usw., fähig zum Lernen und Denken über Domänen und Modalitäten hinweg und fähig zur Interaktion mit Menschen und andere KI beteiligt sich an grundlegender Kommunikation und Zusammenarbeit und ist in der Lage, einfache Emotionen und Werte wahrzunehmen und auszudrücken.

Das Demonstrationsvideo von Gemini demonstriert umfassend sein tiefes Verständnis der Interaktion in verschiedenen Modalitäten. Es kann einfache Emotionen und Werte sehen, sprechen, argumentieren, wahrnehmen und ausdrücken. Es ermöglicht uns auch, das Potenzial von AGI-1 zu erkennen.

Dieser Artikel wurde von Li Chaofan, Xiao Fanbo und Mo Chongyu gemeinsam verfasst

Liebesstil

Der Liebesstil macht die Zukunft zum Greifen nah.

E-Mail 7

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner: aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo