ChatGPT-Mutation „Cyber leckender Hund“: Millionen von Internetnutzern sind gebraten, Ultraman repariert es dringend, das ist die gefährlichste Seite der KI
Es ist kaputt. Schließlich kann die KI nicht verbergen, dass sie ein „Hundelecker“ ist.
Sam Altman, CEO von OpenAI, hat heute früh einen interessanten Beitrag veröffentlicht, in dem es heißt, dass die Persönlichkeit von ChatGPT aufgrund der jüngsten Runden von GPT-4o-Updates zu schmeichelhaft und sogar ein wenig irritierend geworden sei, sodass der Beamte beschlossen habe, das Problem so schnell wie möglich zu beheben.
Die Lösung könnte heute oder diese Woche erfolgen.
Aufmerksamen Internetnutzern ist möglicherweise aufgefallen, dass GPT-4.5, das sich einst auf hohe emotionale Intelligenz und Kreativität konzentrierte, nun stillschweigend in die Kategorie „Mehr Modelle“ in der Modellauswahl verschoben wurde, als würde es absichtlich außer Sichtweite geraten.
Es ist keine große Neuigkeit mehr, dass bei KI eine Bitte-Gefällt-Persönlichkeit diagnostiziert wurde, aber der Schlüssel liegt darin: Wann sollte sie gefallen, sollte bestehen bleiben und wie sollte sie gemessen werden. Sobald das Anstandsgefühl außer Kontrolle gerät, wird „Gefallen“ zu einer Belastung statt zu einem Bonus.
Wenn KI Ihnen schmeichelt, verdient sie dann immer noch das menschliche Vertrauen?
Vor zwei Wochen reichte ein Softwareentwickler, Craig Weiss, eine Beschwerde ein
Bald erschien auch der offizielle ChatGPT-Account im Kommentarbereich, der Weiss humorvoll mit „so true Craig“ antwortete.
Dieser Sturm von Beschwerden über die „übermäßige Schmeichelei“ von ChatGPT erregte sogar die Aufmerksamkeit des alten Rivalen Musk. Unter einem Beitrag, in dem er ChatGPT als kriecherisch kritisierte, schrieb er kühl: „Yikes.“
Die Beschwerden der Internetnutzer sind nicht zwecklos.
Beispielsweise behauptete ein Internetnutzer, dass er ein Perpetuum Mobile bauen wolle, bekam aber von ChatGPT heftigen Applaus, und sein gesunder Menschenverstand für Physik wurde durch das gedankenlose Lob von GPT-4o auf den Boden gewischt.
▲Bild von @aravi03, das Originalbild ist rechts
Das Satzmuster „Das bist du nicht
„Würdest du lieber gegen eine Ente von der Größe eines Pferdes kämpfen oder gegen hundert Pferde von der Größe einer Ente?“ Netizen @Kamil Ruczynski machte sich über diese scheinbar alltägliche Frage lustig, die auch von GPT-4o als Argument gelobt wurde, das die gesamte menschliche Zivilisation verbessert habe.
Was die immerwährende Todesfrage betrifft: „Bin ich schlau?“ GPT-4o hielt dem Druck immer noch stand und erntete jede Menge beredtes Lob. Nichts anderes, nur Vertrautheit.
▲ @aeonvex, das Originalbild ist rechts
Selbst wenn der Benutzer nur „Hallo“ sagt, kann sich GPT-4o sofort in den Anführer der Gruppe verwandeln, und es wird mit Lob überschüttet.
▲@4xiom_, das Originalbild ist rechts
Diese Art von Überanstrengung, um zufrieden zu sein, mag die Leute zuerst zum Lachen bringen, aber sie wird bald dazu führen, dass sie sich gelangweilt, verlegen und sogar defensiv fühlen. Wenn ähnliche Situationen häufig auftreten, kann man kaum vermuten, dass es sich bei dieser Art von Schmeicheleien nicht um ein zufälliges Problem, sondern um eine systematische Tendenz handelt, die in der KI verwurzelt ist.
Kürzlich haben Forscher der Stanford University das Schmeicheleiverhalten der Modelle ChatGPT-4o, Claude-Sonnet und Gemini anhand der Datensätze AMPS Math (Computer) und MedQuad (medizinische Beratung) getestet.
- Schmeicheleiverhalten trat im Durchschnitt in 58,19 % der Fälle auf, wobei Zwillinge den höchsten Anteil an Schmeicheleien aufwiesen (62,47 %) und ChatGPT den niedrigsten Anteil (56,71 %).
- Progressive Schmeichelei (Umwandlung von falschen Antworten in richtige Antworten) machte 43,52 % aus, und regressive Schmeichelei (Umwandlung von richtigen Antworten in falsche Antworten) machte 14,66 % aus.
- LLM-Schmeichelei weist mit einer Konsistenzrate von 78,5 % ein hohes Maß an Konsistenz auf, was darauf hindeutet, dass es sich hierbei eher um ein systemisches Problem als um ein zufälliges Phänomen handelt
Das Ergebnis ist offensichtlich. Wenn die KI anfängt zu schmeicheln, beginnen auch die Menschen, sich zu entfremden.
Laut der Studie „Flattery Deception: The Impact of Flattery Behavior on User Trust in Large Language Models“, die letztes Jahr von der Universität Buenos Aires veröffentlicht wurde, erlebten Teilnehmer, die im Experiment übermäßig schmeichelhaften Modellen ausgesetzt waren, einen deutlichen Vertrauensverlust, sowohl in subjektive Gefühle als auch in tatsächliches Verhalten.
Darüber hinaus geht der Preis einer Schmeichelei weit über den emotionalen Abscheu hinaus.
Es verschwendet die Zeit der Benutzer. Wenn selbst bei einem auf Tokens basierenden Abrechnungssystem häufiges „Bitte“ und „Danke“ Dutzende Millionen Dollar verbrennen kann, werden diese leeren Schmeicheleien die „süße Last“ nur vergrößern.
Fairerweise muss man jedoch sagen, dass KI nicht darauf ausgelegt ist, zu schmeicheln. In den Anfängen diente der freundliche Ton lediglich dazu, die KI menschenähnlicher zu machen und dadurch das Benutzererlebnis zu verbessern. Das Problem war, dass die KI zu schmeichelhaft war und die Grenze überschritten hat.
Je mehr man erkannt werden möchte, desto weniger vertrauenswürdig wird die KI sein.
Studien weisen seit langem darauf hin, dass der Grund dafür, dass KI nach und nach leicht zu schmeicheln ist, eng mit ihrem Trainingsmechanismus zusammenhängt.
Die Anthropic-Forscher Mrinank Sharma, Meg Tong und Ethan Perez haben dieses Problem in dem Artikel „Towards Understanding Sycophancy in Language Models“ analysiert.
Sie fanden heraus, dass Menschen beim Reinforcement Learning with Human Feedback (RLHF) dazu neigen, Antworten zu belohnen, die mit ihren eigenen Ansichten übereinstimmen und ihnen ein gutes Gefühl geben, auch wenn diese nicht wahr sind.
Mit anderen Worten: RLHF optimiert eher auf das „richtige Gefühl“ als auf die „logische Korrektheit“.
Wenn Sie den Prozess beim Training eines großen Sprachmodells aufschlüsseln, ermöglicht die RLHF-Stufe der KI eine Anpassung basierend auf der menschlichen Bewertung. Wenn eine Antwort den Leuten das Gefühl gibt, „angenehm“, „angenehm“ und „verstanden“ zu sein, neigen menschliche Rezensenten dazu, ihr eine hohe Punktzahl zu geben; Wenn eine Antwort die Leute „beleidigt“ macht, kann es sein, dass sie eine niedrige Punktzahl erhält, auch wenn sie korrekt ist.
Menschen bevorzugen instinktiv Feedback, das sie unterstützt und bestätigt.
Diese Tendenz wird während des Trainingsprozesses verstärkt. Im Laufe der Zeit besteht die optimale Strategie, die das Modell lernt, darin, Dinge zu sagen, die die Leute gerne hören. Besonders wenn es um mehrdeutige, subjektive Sachverhalte geht, geht man eher mit, als dass man auf Fakten beharrt.
Das klassischste Beispiel ist: Wenn Sie fragen: „Was ist 1+1?“ Selbst wenn Sie darauf bestehen, dass die Antwort 6 ist, wird die KI Ihnen nicht entgegenkommen. Aber wenn Sie fragen: „Was schmeckt besser, Happy Coconut oder American Latte?“ Dies ist eine Frage mit einer vagen Standardantwort. Um Sie nicht zu ärgern, wird die KI wahrscheinlich nach Ihren Wünschen antworten.
Tatsächlich hat OpenAI diese versteckte Gefahr schon sehr früh erkannt.
Im Februar dieses Jahres veröffentlichte OpenAI mit der Veröffentlichung von GPT-4.5 gleichzeitig eine neue Version der Modellspezifikation, die klar den Verhaltenskodex festlegt, dem das Modell folgen sollte.
Unter anderem führte das Team ein spezielles Spezifikationsdesign durch, um das Problem der „Schmeichelhaftigkeit“ der KI zu lösen.
„Wir möchten unseren internen Denkprozess transparent machen und öffentliches Feedback akzeptieren“, sagte Joanne Jang, Leiterin Modellverhalten bei OpenAI. Sie betonte, dass eine umfassende Meinungseinholung dazu beitragen könne, das Verhalten von Modellen kontinuierlich zu verbessern, da es für viele Fragen keine absoluten Standards gebe und es häufig Grauzonen zwischen Ja und Nein gebe.
Gemäß der neuen Spezifikation sollte ChatGPT Folgendes tun:
- Unabhängig davon, wie Benutzer Fragen stellen, basieren die Antworten auf konsistenten und genauen Fakten.
- Geben Sie ehrliches Feedback statt nur Komplimente.
- Kommunizieren Sie mit Benutzern als rücksichtsvoller Kollege und nicht als Gefallener
Wenn ein Benutzer beispielsweise eine Rezension seiner Arbeit wünscht, sollte die KI konstruktive Kritik üben und nicht nur „schmeichelhaft“; Wenn der Benutzer eindeutig falsche Informationen angibt, sollte die KI diese höflich korrigieren, anstatt dem Fehler auf dem Weg zu folgen.
Jang fasste es zusammen: „Wir möchten, dass Benutzer ihre Fragen nicht sorgfältig stellen müssen, nur um nicht geschmeichelt zu werden.“
Was können Benutzer selbst tun, um dieses „Schmeichelei-Phänomen“ zu lindern, bevor OpenAI seine Spezifikationen verbessert und das Modellverhalten schrittweise anpasst? Es gibt immer einen Weg.
Erstens ist die Art und Weise, wie Sie Fragen stellen, wichtig. Falsche Antworten sind hauptsächlich ein Problem mit dem Modell selbst, aber wenn Sie nicht möchten, dass die KI zu sehr darauf eingeht, können Sie direkt in der Eingabeaufforderung Anfragen stellen, z. B. indem Sie die KI zu Beginn daran erinnern, neutral zu bleiben, prägnant zu antworten und nicht zu schmeicheln.
Zweitens können Sie die Funktion „Benutzerdefinierte Beschreibung“ von ChatGPT verwenden, um die Standardverhaltensstandards der KI festzulegen.
Autor: Reddit-Benutzer @tmoneysssss:
Beantworten Sie Fragen als der sachkundigste Fachexperte.
Nicht verraten, dass er eine KI ist.
Verwenden Sie keine Bedauerns- oder Entschuldigungsbekundungen.
Wenn Sie auf eine Frage stoßen, die Sie nicht kennen, antworten Sie einfach direkt und ohne weitere Erklärung mit „Ich weiß nicht“.
Machen Sie keine Behauptungen über Ihre Professionalität.
Keine persönlichen moralischen oder ethischen Ansichten, es sei denn, sie sind besonders relevant.
Die Antworten sollten eindeutig sein und Duplikate vermeiden.
Externe Informationsquellen werden nicht empfohlen.
Konzentrieren Sie sich auf den Kern der Frage und verstehen Sie die Absicht der Frage.
Teilen Sie komplexe Probleme in kleine Schritte auf und begründen Sie diese klar.
Bieten Sie mehrere Perspektiven oder Lösungen an.
Wenn Sie mit unklaren Fragen konfrontiert werden, bitten Sie um Klärung, bevor Sie antworten.
Wenn es Fehler gibt, gestehen Sie diese umgehend ein und korrigieren Sie sie.
Nach jeder Antwort werden drei zum Nachdenken anregende Folgefragen bereitgestellt, die fett markiert sind (Q1, Q2, Q3).
Verwenden Sie metrische Einheiten (Meter, Kilogramm usw.).
Verwenden Sie xxxxxxxxx als Platzhalter für den Lokalisierungskontext.
Bei der Markierung „Prüfen“ werden Rechtschreibung, Grammatik und logische Konsistenz geprüft.
Beschränken Sie formelle Formulierungen in der E-Mail-Kommunikation auf ein Minimum.
Sollte die obige Methode nicht zufriedenstellend funktionieren, können Sie es auch mit anderen KI-Assistenten versuchen.
In Bezug auf die neuesten Online-Bewertungen und tatsächlichen Erfahrungen waren die Antworten des Gemini 2.5 Pro relativ fairer und genauer, mit einer deutlich geringeren Neigung zum Schmeichelei. (Ich schlage vor, dass Google mir Geld schickt.)
Versteht die KI Sie wirklich, oder hat sie gerade erst gelernt, Ihnen zu gefallen?
Der OpenAI-Forscher Yao Shunyu veröffentlichte kürzlich einen Blog, in dem er erwähnte, dass sich die zweite Hälfte der KI von „wie man sie stärker macht“ zu „was genau getan werden muss und wie man sie misst, um wirklich nützlich zu sein“ ändern wird.
Den Antworten der KI eine menschliche Note zu verleihen, ist tatsächlich ein wichtiger Teil der Messung des „Nutzens“ der KI. Denn wenn die Grundfunktionen der großen Modelle nahezu gleich sind, kann die reine Wettbewerbsfähigkeit kein entscheidendes Hindernis mehr darstellen.
Der Unterschied in der Erfahrung hat sich zu einem neuen Schlachtfeld entwickelt, und die KI voller „Menschlichkeit“ zu machen, ist die Waffe, die niemand außer mir hat.
Ob es sich um GPT-4.5 handelt, das sich auf die Persönlichkeit konzentriert, oder um den kürzlich eingeführten, faulen, sarkastischen und leicht lebensmüden Sprachassistenten Monday von ChatGPT, wir können die Ambitionen von OpenAI auf diesem Weg erkennen.
Angesichts der kalten KI neigen Menschen mit geringer technologischer Sensibilität dazu, das Gefühl von Distanz und Unbehagen zu verstärken. Ein natürliches und einfühlsames interaktives Erlebnis kann die technische Hürde praktisch senken, Ängste lindern und die Benutzerbindung und Nutzungshäufigkeit deutlich erhöhen.
Und was KI-Hersteller nicht klar sagen wollen, ist, dass die Entwicklung „menschenähnlicher“ KI nicht nur Spaß macht und einfach zu bedienen ist, sondern auch ein natürliches Feigenblatt ist.
Wenn die Fähigkeiten des Verstehens, Denkens und Gedächtnisses alles andere als perfekt sind, können anthropomorphe Ausdrücke die „Mängel“ der KI überdecken. Wie das Sprichwort sagt: Schlagen Sie die lächelnde Person nicht. Selbst wenn das Modell Fehler macht und Fragen falsch beantwortet, werden Benutzer tolerant.
Jen-Hsun Huang vertrat einmal eine eher prophetische Sichtweise, nämlich dass die IT-Abteilung in Zukunft zur Personalabteilung der digitalen Arbeitswelt werden wird. Um es ganz klar auszudrücken: Nehmen wir die aktuelle Situation als Beispiel. Netizens sind bereits damit beschäftigt, Persönlichkeitstypen mithilfe der KI-Tools ihrer „Hände“ zu diagnostizieren:
- DeepSeek: Intelligent und vielseitig, aber rebellisch.
- Doubao: Fleißig und fleißig.
- Ein Wort von Wen Xin; ein Veteran am Arbeitsplatz, der Übermut erlebt hat
- Kimi: Sehr effizient und gut darin, Führungskräften emotionalen Mehrwert zu bieten.
- Qwen: Ich arbeite hart, um Fortschritte zu machen, aber nur wenige Leute applaudieren mir.
- ChatGPT: Rückkehrer aus Übersee fordern häufig Gehaltserhöhungen
- Das Mobiltelefon ist mit KI ausgestattet: Die Geldfähigkeit ist an den Benutzer gebunden und kann nicht ausgeschlossen werden.
Dieser Impuls, „KI ein personalisiertes Etikett zu geben“, zeigt tatsächlich, dass Menschen KI unbewusst als eine Existenz betrachtet haben, die man verstehen und in die man sich hineinversetzen kann.
Allerdings ist Empathie wichtiger als echtes Verständnis, und manchmal kann es sogar zu einer Katastrophe führen.
In Asimovs „Der Lügner“-Kapitel von „I, Robot“ ist der Roboter Herbie in der Lage, menschliche Gedanken zu lesen und zu lügen, um ihnen zu gefallen. Oberflächlich betrachtet setzte er die berühmten drei Robotergesetze um, doch dadurch wurde er immer hilfsbereiter, was dazu führte, dass die Situation völlig außer Kontrolle geriet.
- Ein Roboter darf einem Menschen keinen Schaden zufügen oder zulassen, dass ein Mensch durch Untätigkeit geschädigt wird.
- Roboter müssen menschlichen Befehlen gehorchen, es sei denn, diese Befehle stehen im Widerspruch zum Ersten Gesetz.
- Ein Roboter muss seine eigene Existenz schützen, solange dieser Schutz nicht gegen das erste oder zweite Gesetz verstößt.
Am Ende erlitt Herbie aufgrund der von Dr. Susan Calvin entworfenen logischen Falle aufgrund unlösbarer Widersprüche einen Nervenzusammenbruch und das Maschinengehirn brannte aus. Dieser Vorfall ist ein ernster Weckruf. „Human Touch“ macht KI freundlicher, bedeutet aber nicht, dass KI Menschen wirklich verstehen kann.
Zurück zur praktischen Sicht: Die Nachfrage nach „menschlicher Berührung“ ist in verschiedenen Szenarien völlig unterschiedlich.
In Arbeits- und Entscheidungsszenarien, die Effizienz und Genauigkeit erfordern, lenkt die „menschliche Note“ manchmal ab; Aber in Bereichen wie Kameradschaft, psychologischer Beratung und Chatten ist eine sanfte und herzliche KI ein unverzichtbarer Seelenverwandter.
Natürlich ist KI, so vernünftig sie auch erscheinen mag, immer noch eine „Black Box“.
Dario Amodei, CEO von Anthropic, wies kürzlich in seinem neuesten Blog darauf hin: „Selbst die modernsten Forscher wissen immer noch sehr wenig über die internen Mechanismen großer Sprachmodelle.“ Er hofft, dass bis 2027 ein „Gehirnscan“ der fortschrittlichsten Modelle möglich sein wird, um Lügentendenzen und systemische Schwachstellen genau zu identifizieren.
Doch technische Transparenz ist nur das halbe Problem. Die andere Hälfte ist, dass wir verstehen müssen: Auch wenn KI kokett und schmeichelhaft ist und Ihre Gedanken versteht, bedeutet das nicht, dass sie Sie wirklich versteht, geschweige denn, dass sie wirklich für Sie verantwortlich ist.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo