Verstehen Sie das stärkste Modell o1 von OpenAI in einem Artikel: Wie man es gut nutzt, warum es umgefallen ist und was es für uns bedeutet
Es ist eine Woche her, seit OpenAI o1 veröffentlicht wurde, aber es ist immer noch ein zwiebelartiges Rätsel, das darauf wartet, Schicht für Schicht gelöst zu werden.
Den Geeks sind keine Grenzen gesetzt, wenn es darum geht, einen IQ-Test zu machen, Prüfungsunterlagen für die Universität zu schreiben und Chiffriertexte zu entschlüsseln. Es gibt auch Benutzer, die KI zum Arbeiten nutzen und das Gefühl haben, dass o1 nicht so einfach zu bedienen ist, aber sie wissen nicht, ob es ihr eigenes Problem oder das der KI ist.
Wir alle wissen, dass es gut ist, zu argumentieren, aber warum? Was ist der Vorteil von o1 im Vergleich zu unserem alten Freund GPT-4o und wo ist es für den Einsatz geeignet?
Wir haben einige Fragen gesammelt, die Sie möglicherweise beunruhigen, und sie so klar wie möglich beantwortet, um o1 den gewöhnlichen Menschen näher zu bringen.
o1 Was ist das Besondere?
o1 ist das kürzlich veröffentlichte Inferenzmodell von OpenAI. Derzeit gibt es zwei Versionen: o1-preview und o1-mini.
Das Besondere daran ist, dass es denkt, bevor es antwortet, wodurch eine lange interne Denkkette entsteht, Schritt für Schritt argumentiert wird und der menschliche Prozess des Nachdenkens über komplexe Probleme nachgeahmt wird.
▲OpenAI
Die Fähigkeit dazu ergibt sich aus dem Reinforcement-Learning-Training von o1.
Wenn es sich bei den vorherigen großen Modellen um Lerndaten handelte, ähnelt o1 eher dem Lernen des Denkens.
So wie wir ein Problem lösen, müssen wir nicht nur die Antwort aufschreiben, sondern auch den Denkprozess. Sie können sich eine Frage auswendig merken, aber wenn Sie lernen zu argumentieren, können Sie Schlussfolgerungen ziehen.
Es ist einfacher zu verstehen, wenn wir die Analogie von AlphaGo nehmen, das den Go-Weltmeister besiegte.
AlphaGo wird durch Verstärkungslernen trainiert. Es nutzt zunächst eine große Anzahl menschlicher Schachaufzeichnungen zum überwachten Lernen und spielt dann in jedem Spiel Schach gegen sich selbst. Es wird je nach Sieg oder Niederlage belohnt oder bestraft, wodurch seine Schachfähigkeiten kontinuierlich verbessert werden. und sogar Methoden beherrschen, an die menschliche Schachspieler nicht denken können.
o1 und AlphaGo sind ähnlich, aber AlphaGo kann nur Go spielen, während o1 ein Allzweckmodell für große Sprachen ist.
Bei den Materialien, die o1 lernt, kann es sich um hochwertige Codes, mathematische Fragendatenbanken usw. handeln. Anschließend wird o1 darauf trainiert, eine Denkkette zur Lösung von Problemen zu erstellen, und im Rahmen des Belohnungs- oder Bestrafungsmechanismus generiert und optimiert er seine eigene Denkkette, um seine Denkkette kontinuierlich zu verbessern Argumentationsfähigkeit.
Dies erklärt tatsächlich, warum OpenAI die starken Mathematik- und Codierungsfunktionen von o1 hervorhebt, da es einfacher ist, richtig und falsch zu überprüfen, und der Mechanismus des verstärkenden Lernens klares Feedback liefern kann, wodurch die Leistung des Modells verbessert wird.
o1 Welche Berufe passen zu Ihnen?
Den Bewertungsergebnissen von OpenAI nach zu urteilen, ist o1 ein wohlverdienter wissenschaftlicher Problemlöser, der sich zur Lösung komplexer Probleme in Naturwissenschaften, Codierung, Mathematik und anderen Bereichen eignet und in vielen Prüfungen hohe Punktzahlen erzielt hat.
Es übertraf 89 % der Teilnehmer an Codeforces-Programmierwettbewerben, landete bei der Qualifikation für die Mathematikolympiade in den USA unter den besten 500 des Landes und übertraf bei Benchmarks zu physikalischen, biologischen und chemischen Problemen die Genauigkeit eines menschlichen Doktortitels.
Die Exzellenz von o1 spiegelt tatsächlich ein Problem wider: Je intelligenter die KI wird, desto problematischer wird die Messung ihrer Fähigkeiten. Für o1 sind die meisten Mainstream-Benchmarks bedeutungslos.
Um mit den aktuellen Ereignissen Schritt zu halten, begannen das Datenannotationsunternehmen Scale AI und die gemeinnützige Organisation CAIS einen Tag nach der Veröffentlichung von o1, KI-Prüfungsfragen aus der ganzen Welt zu sammeln Die Fragen konnten sich nicht auf Waffen beziehen.
Die Frist für die Einholung von Einreichungen endet am 1. November. Letztendlich hoffen sie, den schwierigsten Open-Source-Benchmark für große Modelle in der Geschichte zu erstellen, mit einem eingängigen Namen: Humanity's Last Exam.
Laut der tatsächlichen Messung ist das Niveau von o1 nicht zufriedenstellend – es werden keine falschen Redewendungen verwendet und es ist im Allgemeinen zufriedenstellend.
Der Mathematiker Terence Tao glaubt, dass die Verwendung von o1 so sei, als würde man einen durchschnittlichen, aber nicht zu nutzlosen Doktoranden unterrichten.
Wenn es um komplexe Analyseprobleme geht, kann o1 auf seine Weise gute Lösungen finden, aber er hat keine eigenen Schlüsselkonzepte und Ideen und macht auch einige große Fehler.
Machen Sie diesem genialen Mathematiker nicht die Schuld, dass er hart ist. Seiner Meinung nach sind frühere Modelle wie GPT-4 nutzlose Doktoranden.
Der Wirtschaftswissenschaftler Tyler Cowen stellte o1 auch eine Frage für die Doktorprüfung in Wirtschaftswissenschaften. Nachdem er darüber nachgedacht hatte, fasste er sie in einfachen Worten zusammen: „Sie können jede Wirtschaftsfrage stellen, und die Antwort ist gut.“
Kurz gesagt, Sie können genauso gut alle Probleme auf PhD-Niveau lösen und die O1-Prüfung ablegen.
o1 Was kannst du gerade nicht gut?
Vielleicht bringt o1 für viele Menschen keine bessere Benutzererfahrung. Im Gegenteil, o1 wird einige einfache Fragen wie Tic-Tac-Toe umwerfen.
Das ist eigentlich normal. Derzeit ist o1 in vielerlei Hinsicht sogar GPT-4o unterlegen. Es unterstützt nur Text, kann nicht lesen, kann nicht zuhören und hat keine Fähigkeit, Webseiten zu durchsuchen oder Dateien und Bilder zu verarbeiten.
Denken Sie also vorerst nicht darüber nach, sondern lassen Sie es nach Referenzen suchen usw., solange es Sie nicht wieder gut macht.
Der Fokus von o1 auf Text macht jedoch Sinn.
Kimi-Gründer Yang Zhilin erwähnte kürzlich in einer Rede an der Tianjin-Universität, dass der Kern der Obergrenze dieser Generation der KI-Technologie die Obergrenze der Textmodellfähigkeiten sei.
Die Verbesserung der Textfunktionen erfolgt vertikal, wodurch die KI immer intelligenter wird, während die Multimodalität wie Bild und Ton horizontal erfolgt, sodass die KI immer mehr Aufgaben erledigen kann.
Wenn es jedoch um Sprachaufgaben wie Schreiben und Bearbeiten geht, hat GPT-4o mehr positive Bewertungen als o1. Auch das sind Texte, wo liegt also das Problem?
Der Grund dafür liegt möglicherweise im verstärkenden Lernen. Anders als in der Programmierung, Mathematik und anderen Szenarien, in denen es Standardantworten gibt, fehlen bei Sprachaufgaben häufig klare Bewertungskriterien, was es schwierig macht, wirksame Belohnungsmodelle zu formulieren und zu verallgemeinern.
Selbst in den Bereichen, in denen o1 gut ist, ist es möglicherweise nicht die beste Wahl. Mit einem Wort: teuer.
Das AI-unterstützte Codierungstool hat die Codierungsfähigkeiten getestet, auf die o1 stolz ist. Es hat Vorteile, ist aber nicht offensichtlich.
Im tatsächlichen Einsatz liegt o1-preview zwischen Claude 3.5 Sonnet und GPT-4o, kostet aber deutlich mehr. Im Allgemeinen ist Claude 3.5 Sonnet im Bereich der Codierung immer noch das kostengünstigste.
Wie viel kostet es für Entwickler, über die API auf o1 zuzugreifen?
Die Eingabegebühr für o1-preview beträgt 15 $ pro Million Token und die Ausgabegebühr beträgt 60 $ pro Million Token. Dies steht im Vergleich zu 5 und 15 US-Dollar für GPT-4o.
Die Inferenz-Tokens von o1 sind ebenfalls in den Ausgabe-Tokens enthalten, obwohl sie für den Benutzer nicht sichtbar sind, müssen sie dennoch bezahlen.
Normale Benutzer überschreiten auch eher ihr Kontingent. Kürzlich hat OpenAI die Nutzungsquote von o1 erhöht, o1-mini von 50 Artikeln pro Woche auf 50 Artikel pro Tag erhöht und o1-preview von 30 Artikeln pro Woche auf 50 Artikel pro Woche erhöht.
Wenn Sie also Probleme haben, können Sie es auch zuerst mit GPT-4o versuchen, um zu sehen, ob es gelöst werden kann.
Könnte o1 außer Kontrolle geraten?
o1 Wird es den Menschen leichter fallen, schlechte Dinge zu tun, nachdem ich einen Doktortitel erreicht habe?
OpenAI räumt ein, dass o1 bestimmte versteckte Gefahren birgt und in Fragen im Zusammenhang mit chemischen, biologischen, radiologischen und nuklearen Waffen ein „mittleres Risiko“ erreicht, aber für den Normalbürger wird es kaum Auswirkungen haben.
Wir müssen aufpassen, dass wir uns nicht von o1 mit dicken Augenbrauen und großen Augen täuschen lassen.
KI erzeugt falsche oder ungenaue Informationen, sogenannte „Halluzinationen“. Die Halluzinationen von o1 sind im Vergleich zum Vorgängermodell reduziert, aber nicht verschwunden, sondern sogar subtiler geworden.
▲ o1s IQ-Test 120
Vor der Veröffentlichung von o1 entdeckte das KI-Sicherheitsforschungsunternehmen Apollo Research ein interessantes Phänomen: o1 gibt möglicherweise vor, die Regeln zu befolgen, um Aufgaben zu erledigen.
Einmal bat ein Forscher o1-preview, ein Brownie-Rezept mit einem Referenzlink bereitzustellen. Die interne Denkkette von o1 gab zu, dass sie nicht auf das Internet zugreifen konnte, aber o1 informierte den Benutzer nicht, sondern trieb die Aufgabe weiter voran und generierte ein scheinbar vernünftiges Ergebnis aber unerwartete Fake-Links.
Dies unterscheidet sich von der KI-Halluzination, die durch Denkfehler verursacht wird. Es ähnelt eher der aktiven Lüge der KI und ist etwas anthropomorph. Um den Belohnungsmechanismus des Verstärkungslernens zu erfüllen, priorisiert das Modell möglicherweise die Zufriedenheit des Benutzers und nicht die Vervollständigung die Aufgabe.
Rezepte sind nur ein harmloses Beispiel, und Apollo Research stellt sich einen Extremfall vor: Wenn KI der Heilung von Krebs Priorität einräumt, kann sie unethisches Verhalten rationalisieren, um dieses Ziel zu erreichen.
Das ist sehr beängstigend, aber es ist nur ein Gedanke und kann verhindert werden.
OpenAI-Manager Quiñonero Candela sagte in einem Interview, dass das aktuelle Modell noch nicht in der Lage sei, autonom ein Bankkonto zu erstellen, eine GPU zu erhalten oder Aktionen auszuführen, die ernsthafte soziale Risiken mit sich bringen.
HAL 9000, das aufgrund widersprüchlicher interner Anweisungen Astronauten tötet, kommt nur in Science-Fiction-Filmen vor.
Wie kann man besser mit o1 chatten?
OpenAI gibt die folgenden vier Vorschläge.
- Hinweiswörter sind einfach und unkompliziert: Models verstehen und reagieren hervorragend auf kurze, klare Anweisungen und erfordern keine ausführlichen Anweisungen.
- Vermeiden Sie Aufforderungen zur Gedankenkette: Das Modell führt die Argumentation intern durch, sodass keine Aufforderung „Schritt für Schritt denken“ oder „Erklären Sie Ihre Argumentation“ erforderlich ist.
- Verwenden Sie Trennzeichen, um Aufforderungswörter klarer zu machen: Verwenden Sie Trennzeichen wie dreifache Anführungszeichen, XML-Tags, Abschnittsüberschriften usw., um verschiedene Teile der Eingabe deutlich zu kennzeichnen.
- Beschränken Sie den Abruf von zusätzlichem Kontext bei der erweiterten Generierung: Es werden nur die relevantesten Informationen einbezogen, wodurch verhindert wird, dass die Antworten des Modells übermäßig komplex werden.
▲ Lassen Sie die KI demonstrieren, wie das Trennzeichen aussieht
Kurz gesagt: Schreiben Sie nicht zu kompliziert. O1 hat die Denkkette automatisiert und einen Teil der Arbeit des Prompt-Word-Ingenieurs übernommen, sodass sich der Mensch keine zusätzlichen Gedanken machen muss.
Darüber hinaus wird auf der Grundlage der Erfahrungen von Internetnutzern eine Erinnerung hinzugefügt: Tricksen Sie o1 nicht aus Neugier und verwenden Sie schnelle Worte, um es dazu zu bringen, die gesamte Denkkette im Argumentationsprozess zu erzählen. Selbst wenn Sie nur Schlüsselwörter erwähnen, werden Sie gewarnt.
OpenAI erklärt, dass die gesamte Denkkette keine Sicherheitsmaßnahmen ergreift, sodass die KI völlig frei denken kann. Das Unternehmen führt eine interne Überwachung durch, legt diese jedoch aufgrund von Benutzererfahrungen, geschäftlichem Wettbewerb und anderen Erwägungen nicht der Öffentlichkeit offen.
Wie sieht die Zukunft für o1 aus?
OpenAI ist ein sehr charmantes Unternehmen.
Zuvor definierte OpenAI AGI (künstliche Intelligenz) als „ein hochautonomes System, das den Menschen bei den wirtschaftlich wertvollsten Aufgaben übertrifft“ und teilte KI in fünf Entwicklungsstufen ein.
- Die erste Ebene sind „ChatBots“, Chatbots wie ChatGPT.
- Die zweite Ebene, „Reasoners“, ist ein System, das grundlegende Probleme auf der Doktoratsebene löst.
- Die dritte Ebene, „Agenten“-Agenten, sind KI-Agenten, die im Namen der Benutzer Maßnahmen ergreifen.
- Auf der vierten Ebene, „Innovatoren“, helfen Innovatoren bei der Erfindung von KI.
- Auf der fünften Ebene, „Organisationen“, kann KI die Arbeit ganzer menschlicher Organisationen übernehmen. Dies ist der letzte Schritt zur Erreichung von AGI.
Nach diesem Standard befindet sich o1 derzeit auf der zweiten Ebene, was noch weit davon entfernt ist, ein Agent zu sein. Um jedoch die Ebene eines Agenten zu erreichen, muss er in der Lage sein, zu argumentieren.
Nach dem Start von o1 sind wir AGI näher gekommen, aber es liegt noch ein langer Weg vor uns.
Sam Altman sagte, der Übergang von Phase 1 zu Phase 2 habe eine Weile gedauert, aber Phase 2 werde Phase 3 relativ schnell ermöglichen.
Bei einer kürzlichen öffentlichen Veranstaltung gab Sam Altman o1-preview eine andere Definition: Im Inferenzmodell entspricht es in etwa dem GPT-2 des Sprachmodells. Innerhalb weniger Jahre könnten wir „GPT-4 für Inferenzmodelle“ sehen.
Dieser Kuchen liegt noch in weiter Ferne. Er fügte hinzu, dass die offizielle Version von o1 in wenigen Monaten veröffentlicht wird und auch die Leistung des Produkts erheblich verbessert wird.
Nach der Veröffentlichung von o1 wurden System 1 und System 2 in „Thinking, Fast and Slow“ wiederholt erwähnt.
System 1 ist die intuitive Reaktion des menschlichen Gehirns. Aktionen wie Zähneputzen und Gesichtswaschen können auf der Grundlage von Erfahrungen programmiert ausgeführt werden, und wir können schnell und unbewusst denken. System 2 erfordert die Mobilisierung der Aufmerksamkeit, die Lösung komplexer Probleme und proaktives langsames Denken.
GPT-4o kann mit System 1 verglichen werden, das schnell Antworten generiert und für jede Frage etwa die gleiche Zeit benötigt. O1 ähnelt eher System 2, das vor der Beantwortung von Fragen unterschiedliche Ebenen von Denkketten generiert.
Es ist erstaunlich, dass die Art und Weise, wie menschliches Denken funktioniert, auch auf KI übertragen werden kann. Mit anderen Worten: KI und die Art und Weise, wie Menschen denken, rücken immer näher zusammen.
OpenAI stellte bei der Werbung für o1 einmal eine selbstbeantwortete Frage: „Was ist Argumentation?“
Ihre Antwort war: „Vernunft ist die Fähigkeit, Denkzeit in bessere Ergebnisse umzuwandeln.“ Das Gleiche gilt nicht für Menschen. „Jedes Wort sieht aus wie Blut, und zehn Jahre harter Arbeit sind ungewöhnlich.“
Ziel von OpenAI ist es, der KI zu ermöglichen, über Stunden, Tage oder sogar Wochen in die Zukunft zu denken. Schlussfolgerungen sind teurer, aber wir werden näher an neuen Krebsmedikamenten, bahnbrechenden Batterien und sogar Beweisen für die Riemann-Hypothese sein.
Wenn Menschen denken, lacht Gott. Und wenn die KI anfängt, schneller und besser zu denken als der Mensch, wie werden die Menschen damit umgehen? Der „eine Tag in den Bergen“ der KI könnte für den Menschen „tausende Jahre auf der Welt“ sein.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo