ChatGPT interpretiert Fotos jetzt besser als ein Kunstkritiker und ein Ermittler zusammen
Die neuesten Bildgenerierungsfunktionen von ChatGPT haben unser bisheriges Verständnis von KI-generierten Medien in Frage gestellt. Das kürzlich angekündigte GPT-4o-Modell demonstriert bemerkenswerte Fähigkeiten, Bilder mit hoher Genauigkeit zu interpretieren und sie mit viralen Effekten wie dem von Studio Ghibli inspirierten nachzubilden. Es beherrscht sogar Text in KI-generierten Bildern , was für KI bisher schwierig war. Und jetzt bringt das Unternehmen zwei neue Modelle auf den Markt, die in der Lage sind, Bilder nach Hinweisen zu durchsuchen, um weitaus mehr Informationen zu sammeln, die dem menschlichen Blick möglicherweise entgehen würden.
OpenAI hat Anfang dieser Woche zwei neue Modelle angekündigt , die die Denkfähigkeiten von ChatGPT auf ein neues Niveau heben. Das neue o3-Modell, das OpenAI als sein „leistungsfähigstes Argumentationsmodell“ bezeichnet, verbessert die bestehenden Interpretations- und Wahrnehmungsfähigkeiten und verbessert sich in „Kodierung, Mathematik, Naturwissenschaften, visueller Wahrnehmung und mehr“, behauptet die Organisation. Mittlerweile ist der o4-mini ein kleineres und schnelleres Modell für „kosteneffizientes Denken“ in den gleichen Bereichen. Die Nachricht folgt auf die kürzliche Einführung der GPT-4.1-Modellklasse durch OpenAI, die eine schnellere Verarbeitung und einen tieferen Kontext bietet.
ChatGPT „denkt jetzt mit Bildern“
Durch die Verbesserung ihrer Denkfähigkeit können beide Modelle nun Bilder in ihren Denkprozess einbeziehen, was sie in die Lage versetzt, „mit Bildern zu denken“, verkündet OpenAI . Mit dieser Änderung können beide Modelle Bilder in ihre Gedankenkette integrieren. Die o3- und o4-mini-Modelle gehen über die grundlegende Analyse von Bildern hinaus und können Bilder genauer untersuchen und sie sogar durch Aktionen wie Zuschneiden, Zoomen, Spiegeln oder Anreichern von Details manipulieren, um visuelle Hinweise aus den Bildern abzurufen, die die Fähigkeit von ChatGPT, Lösungen bereitzustellen, möglicherweise verbessern könnten.
In der Ankündigung heißt es, dass die Modelle visuelles und textuelles Denken vereinen, was mit anderen ChatGPT-Funktionen wie Websuche, Datenanalyse und Codegenerierung integriert werden kann und voraussichtlich die Grundlage für fortschrittlichere KI-Agenten mit multimodaler Analyse bilden wird.
Neben anderen praktischen Anwendungen können Sie damit rechnen, Bilder einer Vielzahl von Elementen, wie Flussdiagramme, einzubinden oder von handschriftlichen Notizen bis hin zu Bildern realer Objekte zu kritzeln, und erwarten, dass ChatGPT ein tieferes Verständnis für eine bessere Ausgabe hat, auch ohne eine beschreibende Textaufforderung. Damit nähert sich OpenAI Googles Gemini an, das die beeindruckende Fähigkeit bietet, die reale Welt durch Live-Videos zu interpretieren .
Trotz kühner Behauptungen beschränkt OpenAI den Zugriff nur auf zahlende Mitglieder, vermutlich um zu verhindern, dass seine GPUs wieder „schmelzen“ , da es Schwierigkeiten hat, den Rechenbedarf für neue Argumentationsfunktionen aufrechtzuerhalten. Ab sofort sind die Modelle o3, o4-mini und o4-mini-high exklusiv für ChatGPT Plus-, Pro- und Team-Mitglieder verfügbar, während Benutzer der Enterprise- und Education-Stufe sie in einer Woche erhalten. In der Zwischenzeit können Free-Benutzer eingeschränkten Zugriff auf o4-mini erhalten, wenn sie in der Eingabeaufforderungsleiste auf die Schaltfläche „Think“ klicken.