57 % des Internets könnten bereits KI-Schlamm sein

eine CGI-Wortblase
Google Deepmind / Pexels

Das betrifft nicht nur Sie – die Suchergebnisse werden tatsächlich immer schlechter. Forscher von Amazon Web Services (AWS) haben eine Studie durchgeführt , die darauf hindeutet, dass 57 % der Inhalte im Internet heute entweder KI-generiert oder mithilfe eines KI-Algorithmus übersetzt werden.

Die Studie mit dem Titel „ A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism “ argumentiert, dass kostengünstige maschinelle Übersetzung (MT), die einen bestimmten Inhalt übernimmt und ihn in mehreren Sprachen wiedergibt, die beste Lösung ist Hauptschuldiger. „Maschinengenerierte, multidirektionale Parallelübersetzungen dominieren nicht nur die Gesamtmenge der übersetzten Inhalte im Web in Sprachen mit geringeren Ressourcen, in denen MT verfügbar ist; es macht auch einen großen Teil des gesamten Webinhalts in diesen Sprachen aus“, schreiben die Forscher in der Studie.

Sie fanden auch Hinweise auf eine Selektionsverzerrung bei den Inhalten, die maschinell in mehrere Sprachen übersetzt werden, im Vergleich zu Inhalten, die in einer einzigen Sprache veröffentlicht wurden. „Dieser Inhalt ist kürzer, vorhersehbarer und weist eine andere Themenverteilung auf als in eine einzige Sprache übersetzte Inhalte“, schrieben die Forscher.

Darüber hinaus könnte die zunehmende Menge an KI-generierten Inhalten im Internet in Verbindung mit der zunehmenden Abhängigkeit von KI-Tools zur Bearbeitung und Manipulation dieser Inhalte zu einem Phänomen führen, das als „Modellkollaps“ bekannt ist, und bereits jetzt die Qualität der Suchergebnisse im gesamten Web verringert. Angesichts der Tatsache, dass Grenz-KI-Modelle wie ChatGPT , Gemini und Claude auf riesigen Mengen an Trainingsdaten basieren, die nur durch das Scrapen des öffentlichen Webs (unabhängig davon, ob das das Urheberrecht verletzt oder nicht) erfasst werden können, indem das öffentliche Web mit KI-generierten Daten vollgestopft wird usw Inhalte sind oft ungenau und können ihre Leistung erheblich beeinträchtigen.

„Es ist überraschend, wie schnell ein Modellkollaps einsetzt und wie schwer er zu fassen ist“, sagte Dr. Ilia Shumailov von der Universität Oxford gegenüber Windows Central . „Zuerst betrifft es Minderheitendaten – Daten, die schlecht dargestellt werden. Dies wirkt sich dann auf die Diversität der Ausgaben aus und die Varianz verringert sich. Manchmal beobachten Sie bei den Mehrheitsdaten eine kleine Verbesserung, die den Leistungsabfall bei den Minderheitsdaten verbirgt. Ein Modellkollaps kann schwerwiegende Folgen haben.“

Die Forscher demonstrierten diese Konsequenzen, indem sie professionelle Linguisten 10.000 zufällig ausgewählte englische Sätze aus einer von 20 Kategorien klassifizieren ließen. Die Forscher beobachteten „eine dramatische Verschiebung in der Verteilung der Themen beim Vergleich von 2-Wege- mit 8+-Wege-Paralleldaten (d. h. der Anzahl der Sprachübersetzungen), wobei „Konversations- und Meinungsthemen“ von 22,5 % auf 40,1 % der veröffentlichten Daten anstiegen .

Dies deutet auf eine Selektionsverzerrung bei der Art der Daten hin, die in mehrere Sprachen übersetzt werden und die „wesentlich wahrscheinlicher“ aus dem Thema „Konversation und Meinung“ stammen.

Darüber hinaus stellten die Forscher fest, dass „hochgradig multidirektionale Parallelübersetzungen eine deutlich geringere Qualität aufweisen (6,2 Comet Quality Estimation- Punkte schlechter) als 2-Wege-Parallelübersetzungen.“ Als die Forscher 100 der sehr vielschichtigen parallelen Sätze (die in mehr als acht Sprachen übersetzt wurden) prüften, stellten sie fest, dass „die überwiegende Mehrheit“ von Content-Farmen mit Artikeln stammte, „die wir als minderwertig einstuften und die wenig oder gar kein Fachwissen erforderten“. , oder Anstrengung zum Schaffen vorantreiben.“

Das erklärt sicherlich, warum Sam Altman, CEO von OpenAI, immer wieder betont, dass es „unmöglich“ sei, Tools wie ChatGPT ohne freien Zugang zu urheberrechtlich geschützten Werken zu entwickeln .