Die Auswirkungen von GPT auf Produktschnittstellen
1. Hintergrundinformationen
1.1 Warum sind große Modelle wichtig?
Als eine Art großes Sprachmodell (LLM) demonstriert das GPT-Modell (Generative Pre-Trained Transformer) von OpenAI die maschinelle Intelligenz, die dem heutigen Menschen am nächsten kommt. Das wichtigste Merkmal von GPT ist, dass es Billionen von Parametern und Textdaten verwendet Das gesamte Internet ermöglicht es Computermodellen, intelligente Emergenz (Emergence) zu erzeugen. Emergenz bezieht sich in der Physik im Allgemeinen auf das wiederkehrende Auftreten bestimmter stabiler Muster in chaotischen Phänomenen. Emergenz ist die anspruchsvollste Kategorie beim Verständnis komplexer Naturphänomene. Aus einem aktuellen Interview mit OpenAI-Chef Sam Altman und Chefwissenschaftler Ilya können wir verstehen, wie man das große Sprachmodell, das mit Intelligenz entsteht, zähmt und wie man es den Menschen stabil und sicher zur Verfügung stellt (Ausrichtung, Ausrichtung). OpenAI hat es noch nicht vollständig gemeistert Aufgrund der effektiven Debugging-Methode ist GPT bis zu einem gewissen Grad immer noch eine Blackbox.
Wir müssen uns fragen, warum ein Sprachmodell die Welt verändern wird. ChatGPT ist zwar gehorsamer und kann besser sprechen, aber was ist das Tolle an einem intelligenten Textinteraktionstool? Dafür gibt es zwei Gründe: 1. Künstliche Intelligenz verfügt über mehrere Modi (Modal). Die Forschung zwischen verschiedenen Modi durchdringt und konkurriert miteinander. Der Modus mit der besten Leistung wird als erster die Flugbahn zukünftiger KI-Anwendungen definieren. ChatGPT zeigt Text modal an Intelligenz wird die jüngste Entwicklung der KI dominieren. 2. Text ist als Eingang zur menschlichen Gesellschaft sehr wichtig.
Punkt 1, Multimodalität. Künstliche Intelligenz, die Bilder als Modalität nutzt, wird seit vielen Jahren entwickelt. Computer Vision, die immer wieder große Erfolge bei der Bilderkennung und beim autonomen Fahren erzielt hat, ist ein weiterer Zugang zur künstlichen Intelligenz. In den letzten zehn Jahren kam es auf den drei Konferenzen CVPR/ICCV/ECCV zu einer Explosion von Beiträgen. Auch wenn Parallelimporte entfernt werden, ist dies der Inbegriff der Explosion der Bildintelligenz. Das Aufkommen von OpenAI hat die herausragende Stellung der grafischen Intelligenz in KI-Anwendungen und sogar ihren Entwicklungsverlauf umgekehrt – als Meta Segment-Anything (einen grafischen Algorithmus zum Segmentieren verschiedener Objekte in Bildern) veröffentlichte, zeigte das Modell eine ähnliche Leistungsfähigkeit wie GPT im Text Modalität. Angesichts der kostenlosen Migrationsmöglichkeiten riefen einige Leute auch aus, dass der traditionelle Lebenslauf tot sei (eine Übertreibung).
Der Einfluss von ChatGPT auf die Textmodalität bedarf keiner näheren Erläuterung. Er geht über den bloßen wissenschaftlichen Forschungswert hinaus und definiert die Intelligenz und das Geschäftspotenzial der Textmodalität neu. Das Produkt DALL·E von OpenAI bietet auch Bildintelligenz außerhalb der Textmodalität. Die Open-Source-Version Stable Diffusion und die Closed-Source-Version Midjourney haben als Oberherren im Bereich der Vincent-Grafiken auch zu unzähligen „Todeswarnungen“ in der Kreativbranche beigetragen. Insgesamt durchdringt KI einander in den beiden Modalitäten Text und Bild und verschiebt im gegenseitigen Wettbewerb die Grenzen der Intelligenz.
– Text- und Bildmodalität von OpenAI: ChatGPT + DALL·E
– Stable Diffusion Web-Benutzeroberfläche (Bildmodal): Stable-Diffusion
– Midjourney (grafisches Modal): Midjourney
Punkt 2: Die Textmodalität ist der Eingang zur menschlichen Gesellschaft. Sie können sich auf die Ansichten von Yuval Harari (Autor von „A Brief History of Humankind“) in einem exklusiven Interview mit The Economist beziehen: Er glaubt, dass Sprache das Betriebssystem der menschlichen Gesellschaft ist und dass künstliche Intelligenz sich in dieses System gehackt hat, und KI wird es verändern, indem Sprache, das Betriebssystem selbst, die Geschichte der Menschheit völlig verändert hat. Die Planung menschlichen Verhaltens und sozialen Feedbacks durch große Modelle wird aufgrund des Eindringens des Sprachsystems enorme Auswirkungen haben.
Weitere Informationen finden Sie unter: yuval-noah-harari-argues-that-ai-has-hacked-the-operating-system-of-human-civilisation
1.2 Kosten für LLM
Wie viel kostet es, ein wirklich großes Modell zu trainieren?
Erstens benötigen große Modelle unabhängig von Bildern und Videos mindestens die Textdaten des gesamten Internets; zum Starten sind Zehntausende A100 erforderlich; der Rechenenergieverbrauch des benötigten Stroms wird zu einem nicht zu vernachlässigenden Kostenfaktor; Die Kosten für Versuch und Irrtum sind unkontrollierbar: Sie können in mehreren Monaten gemessen werden. Die Trainingszeit und die Arbeitskosten; die Methode des Modelltrainings und der präzisen Feinabstimmung ist unbekannt oder nicht öffentlich, und das große Modell ist immer noch eine Blackbox. Die Summe dieser Gründe hat dazu geführt, dass es nur eine Handvoll Unternehmen auf dem Planeten gibt, die große Modelle besitzen können, da dies extrem starke finanzielle Ressourcen und eine extrem hohe Risikotoleranz erfordert. Nicht nur, dass Nachwuchsspieler nicht teilnehmen können, sondern auch Große Unternehmen, denen der Abenteuergeist fehlt, sind es nicht wert, sie zu besitzen.
Elon Musk schätzte in einem aktuellen Interview, dass für das Training eines GPT-5-Level-Modells 30.000 bis 50.000 H100-Chips unter Verwendung der neuesten technischen Architektur und der besten KI-Forscher (siehe OpenAI, etwa 200+ Personen) erforderlich sein könnten. Schließlich nannte Musk die Startkosten des großen Modells. Verglichen mit der jüngsten Bewertung großer Modell-Startups ist diese Zahl von großem Referenzwert: 250 Millionen US-Dollar.
1.3 Chancen
Auf der Aktionärsversammlung von Tencent im Jahr 2023 antwortete Tencent-CEO Ma Huateng auf Fragen zu ChatGPT und KI mit den Worten: „Wir dachten zunächst, (künstliche Intelligenz) sei eine einmalige Chance für das Internet, aber je mehr wir darüber nachdachten.“ „Umso mehr hatten wir das Gefühl, dass dies eine einmalige, ähnliche Chance sei. Chancen wie die industrielle Revolution, die die Elektrizität erfunden hat.“ Ma Huateng sagte, dass Internetunternehmen im Bereich der KI viel angesammelt hätten, und Tencent auch ist in Forschung und Entwicklung vertieft, hat es aber nicht eilig, es vorzeitig fertigzustellen und die Halbfertigprodukte vorzuführen. „Für die industrielle Revolution ist es auf lange Sicht nicht so wichtig, die Glühbirnen einen Monat früher auszuschalten. Der Schlüssel liegt darin, solide Arbeit bei den zugrunde liegenden Algorithmen, der Rechenleistung und den Daten zu leisten, und was noch wichtiger ist: die Umsetzung des Szenarios.“ , und derzeit (wir) denken wir noch darüber nach. Ich habe das Gefühl, dass viele Unternehmen jetzt zu voreilig sind und es fühlt sich an, als ob es darum geht, den Aktienkurs anzukurbeln, was nicht unser Stil ist.“
Zusammenfassend lässt sich sagen, dass es keinen Grund zur Eile gibt, um den Aktienkurs in die Höhe zu treiben, und dass es keinen Grund zur Eile gibt, Innovationen hervorzubringen, denn der Weg, der vor uns liegt, ist lang. Große Modelle sind keine neuen Anwendungen, sie sind die Revolution selbst.
Ich habe auch einige Meinungen. Der Unterschied zwischen dem Herausnehmen der Glühbirne einen Monat zu spät und dem Herausnehmen der Glühbirne einen Monat früher besteht darin, ob man am Ende Edison oder eine unbekannte zweite Person ist, die die Glühbirne erfindet. Doch trotz der erstaunlichen Fähigkeiten großer Modelle ist die Domestizierung und Verbesserung immer noch eine schwierige Herausforderung. Wir befinden uns in einer herausfordernden Zeit, wenn wir zum ersten Mal ein Flugzeug bauen. Wenn wir sicher und stabil fliegen wollen, müssen wir noch viele hart erkämpfte Lehren aus Misserfolgen ziehen, um zu verstehen, wo die rote Linie liegt. OpenAI hat das Plugin-Plug-in auf den Markt gebracht, bei dem es sich um eine potenzielle Produktmethode handelt. Die aktuelle kommerzielle Leistung des Plugins ist jedoch nicht klar. Der App Store, der voraussichtlich durch das Plugin ausgelöst wird, ist ebenfalls jederzeit unklar. Wie man GPT umwandelt in ein Produkt mit kommerziellem Wert verwandelt, ist noch unbekannt. Im Laufe der Jahre war Goose Factory ein Trendsetter im Second-Mover-Vorteil und verfügt über den Trumpf der Mikroinnovation. Es ist nicht unbedingt unvernünftig, seine Stärken voll auszuspielen.
2. GPT verursacht Veränderungen in der Mensch-Computer-Interaktionsschicht (HCI/UI)
Benutzeroberfläche, Benutzerinteraktionsschnittstelle, auch als UI bezeichnet. Heutzutage lebt jeder im Ozean der Benutzeroberfläche. Viele Internetnutzer glauben, dass Benutzeroberfläche ≈ Web + App-Design ist. Dieses Verständnis schränkt die Konnotation von Benutzeroberfläche erheblich ein. Eine professionellere Definition von UI sollte HCI (Human-Computer Interface, Mensch-Computer-Interaktionsschnittstelle) heißen. In den letzten fast einem Jahrhundert der Entwicklung haben Menschen mehrere Generationen unverwechselbarer Benutzeroberflächen entworfen, die auf der Rechenleistung und dem Intelligenzniveau der damaligen Maschinen basieren. Wir befinden uns in der Übergangsphase von GUI zu NLI.
- PCI: Lochkartenschnittstelle, interaktive Lochkartenschnittstelle
- CLI: Command Line Interface, interaktive Befehlszeilenschnittstelle
- GUI: Graphic User Interface, grafische interaktive Oberfläche
- NLI: Natural Language Interface, interaktive Schnittstelle in natürlicher Sprache
- BCI: Brain Computer Interface, Gehirn-Computer-Interaktionsschnittstelle
2.1 PCI, Lochkartenschnittstelle Lochkartenschnittstelle
Oben: Ein Stapel Lochkarten mit einem Programm.
Unten: US-Beamte erstellten 1950 Lochkarten mit einem Abschnitt der US-Volkszählungsdaten.
2.2 CLI, Command Line Interface-Befehlszeilenschnittstelle
Programmiersprachen werden weiter gekapselt und Anzeigegeräte erscheinen, und Befehlszeilentools sind zur wichtigsten interaktiven Schnittstelle für Computer geworden. Der CLI-Betrieb ist effizient und leistungsstark.
2.3 GUI, grafische Benutzeroberfläche Grafische Benutzeroberfläche
Die GUI, die grafische Benutzeroberfläche, die Jobs von Xerox „gestohlen“ hat, löste die PC-Revolution aus.
Diese Schnittstellenebene war äußerst einflussreich und die weltweit erste Killeranwendung wurde auf der GUI geboren, die Macintosh-Tabelle VisiCalc, die auch der Vorgänger von Excel war.
Bis heute ist die schöne und reibungslose Benutzeroberfläche des Mac immer noch eine der attraktivsten Produktfunktionen für Benutzer.
2.4 NLI, Natural Language Interface, Schnittstelle in natürlicher Sprache
1. Text zu Text https://openai.com/chatgpt
2. Text zum Bild https://openai.com/dall-e-2
3. Text-to-Video-Download
Runway: Kreativität mit künstlicher Intelligenz fördern.
Sagen Sie ein Wort: „Ein schönes Wohnzimmer-Konzept-Rendering.“ „Erstellen Sie ein wunderschönes Wohnzimmer-Konzept-Rendering.“
4. Text-to-Action-Verhalten
Geschickt:
Das Ziel von Adept ist es, durch Softwareautomatisierung einen rundum intelligenten Assistenten zu entwickeln. Natürliche Sprache wird der einzige interaktive Inhalt sein, den Adept-Benutzer in Zukunft verwenden müssen.
2.5 BCI, Brain Computer Interface
Vom Gedanken zum Handeln, vom menschlichen Denken zum Maschinenverhalten. NeuroLink, das letztes Jahr große Aufmerksamkeit erregte, ermöglicht es Affen, das Spiel Pong mit ihren Gedanken zu spielen, und Menschen können Gehirn-Computer-Schnittstellen auch nutzen, um einfache Spiele und mechanische Prothesen zu steuern. In diesem Stadium helfen sinnvollere Gehirn-Computer-Produkte vor allem behinderten Menschen dabei, Prothesen zu kontrollieren und ihre Lebensfähigkeit wiederherzustellen. Die heutige Gehirn-Computer-Technologie ist für uns noch etwas früh, um über revolutionäre Mensch-Computer-Interaktionsschnittstellen zu diskutieren.
2.6 Zusammenfassung
-Die Konnotation der Benutzeroberfläche muss erweitert werden
Die Kommunikation zwischen Maschinen und Menschen erfordert eine Schicht interaktiver Medien, die die Grenzen der Eingabe und Ausgabe in der Mensch-Computer-Interaktion steuert. Das interaktive Medium filtert und konvertiert menschliche Eingaben und macht diese seltsamen menschlichen Eingaben sicher und für die Maschine identifizierbar. Gleichzeitig werden die von der Maschine zurückgegebenen Ergebnisse vom interaktiven Medium gefiltert und konvertiert, wodurch sie sicher, nutzbar und wertvoll werden zu Menschen.
Diese Schicht interaktiver Medien, die Menschen und Maschinen verbindet, ist die Definition von UI.
In der Internetrevolution der letzten zwei Jahrzehnte hat die grafische Benutzeroberfläche alle Eingabemethoden standardisiert, die Menschen mit der Maschine ausführen möchten, und zwar durch begrenzte Bedienformen wie Tasten, Ziehen, Riemenscheiben, Fingerzoomen, Mehrfingerbedienungen, Schütteln, Umdrehen und Hardware Tasten usw. Diese standardisierte Eingabe wird von der Maschine verstanden und als standardisierte Ausgabe zurückgegeben. Die PC- und mobile Internet-Revolution hat UI und GUI gleichgesetzt, aber tatsächlich ist UI weitaus umfangreicher als die bestehenden Interaktionsmethoden der GUI.
Das Aufkommen von GPT hat dieses Gleichgewicht direkt zerstört. Die wichtigste Auswirkung der intelligenteren Maschinen auf Produkte besteht darin, dass die Fehlertoleranz des Computers für natürliche Sprache erheblich verbessert wurde. Er benötigt keinen Filter mehr, der nur sehr begrenzte Eingaben empfangen kann, um Menschen zu verstehen. Die natürliche Sprache, die jeden Tag gesprochen wird, ist sogar mit allerlei Logik, Andeutungen, Sarkasmus und Fehlern vermischt. Die Verbesserung der Fehlertoleranz der KI für natürliche Sprache wird definitiv die aktuelle Interaktionsebene der GUI als UI zerstören:
1. Eine große Veränderung in der Benutzererfahrung (UX). Benutzer haben sich in der Vergangenheit von der Hauptinteraktionsmethode „Klicken, Schieben, Ziehen“ mit Fingern und Maus zu einer Interaktion mit natürlicher Sprache als Schnittstelle entwickelt.
2. Wird die aktuelle GUI verschwinden? Nein, aus zwei Gründen. Erstens: Wenn das Modell nicht genau genug ist oder die KI-Produktisierung noch nicht ausgereift ist, sind das elegante Erscheinungsbild und die Erfahrung der GUI für Benutzer immer noch attraktiv, und die Kosten für die Interaktion mit Fingern und Maus sind weitaus geringer als bei natürlicher Sprache. Zweitens: Ist die schwarze Befehlszeile in Bezug auf die verschiedenen Phasen der UI-Entwicklung veraltet? Nein, die GUI verschwindet nicht sofort. Wenn es effizienter ist, die interaktive Schnittstelle der vorherigen Ära zu nutzen, wird diese Art der Interaktion auch dann noch bestehen, wenn die Nutzungsschwelle hoch ist.
3. Das Befehlszeilentool (CLI) ist immer noch die effizienteste Möglichkeit, tiefgreifende Vorgänge auf dem Computer auszuführen. Wenn Sie in der intelligenten Zukunft eine Anwendung ausführlich bedienen müssen, könnte jemand sagen: Öffnen Sie Ihre GUI, genau wie die heutigen Programmierer sagen: Öffnen Sie Ihr Terminal.
4. Die Mensch-Computer-Interaktionsschnittstelle wird sich dahingehend weiterentwickeln, dass die Tiefe der Computeroperationen verflacht und die Schwelle für die Nutzung gesenkt wird. Das Gleiche gilt für die Veränderungen, die große Vorbilder anstoßen werden. Sie können diesen Trend erkennen: Befehlszeilen-CLI – grafische Benutzeroberfläche GUI – natürliche Sprache NLI – Gehirn-Computer-Schnittstelle BCI. Dieser Trend verringert sich immer weiter bei der Fähigkeit von Computern, in die Tiefe zu gehen, und er senkt auch die Schwelle für Benutzer Und niedriger.
5. Die besten Computeringenieure können nicht durch ihr tiefgreifendes Verständnis von Maschinen und ihre umfassenden Betriebsfähigkeiten ersetzt werden, aber nur die besten Ingenieure können überleben.
Auf dem Bild unten können wir deutlicher erkennen, warum GPT große Änderungen in der Benutzeroberfläche des Produkts verursachen wird. Denn Maschinensprachen waren in der Vergangenheit sehr hart und hatten eine extrem geringe Fehlertoleranz. Ein einzelner Interpunktionsfehler in einer Programmiersprache kann dazu führen, dass das gesamte Programm nicht mehr funktionsfähig ist. Die wichtigste Magie, die große Modelle mit sich bringen, besteht darin, die Fehlertoleranz der Maschine gegenüber menschlicher natürlicher Sprache (Natural Language, NL) deutlich zu verbessern. Zusammenfassend lässt sich sagen, dass die zukünftige interaktive Schnittstelle in natürlicher Sprache das Texteingabefeld als Ausgangspunkt nehmen und auf eine multimodale und hochdynamische Interaktion abzielen wird.
Nutzungsschwelle: Je näher es am Menschen liegt, desto niedriger ist die Nutzungsschwelle. Befehlszeilen-CLI > Grafische Benutzeroberfläche GUI > NLI in natürlicher Sprache > Gehirn-Computer-Schnittstelle BCI
Betriebseffizienz: Je weiter von der Maschine entfernt, desto geringer ist die Steuerungseffizienz. Befehlszeilen-CLI > Grafische Benutzeroberfläche GUI > NLI in natürlicher Sprache > Gehirn-Computer-Schnittstelle BCI
-Die Entwicklung von NLI
·Start: Texteingabefeld
·Entwicklung: multimodales Eingabefeld, Sprache, Bild, Video · Ziel : Eingabe – multimodaler Text, Ton, Bild, Video => Rückgabe – nützlicher Text, Sprache, Bild, Video + nützliches Softwareverhalten.
Welche Modi kann Vision Pro bieten: dreidimensionale Interaktion, Gesten, Schwerkraft, Rotation, Sprachtext, statische Bilder und Echtzeitvideo.
·Zukunft : Mit Menschen zu sprechen ist nur der Ausgangspunkt, um die Welt mit großen Modellen zu verstehen. Die Verwendung von LLM als Gehirn, Kameras als Augen und Roboterarmen als Gliedmaßen ist eine neue Schnittstelle für die KI, um mit der physischen Welt zu interagieren.
-Timberter – eine auf visuellen Algorithmen basierende „Holzzähl“-Anwendung, die es schon seit vielen Jahren gibt . Was würde passieren, wenn wir die Denkfähigkeiten eines großen Modells und eines Roboterarms hinzufügen würden, der die Handhabung durchführen kann?
-Ein per Stimme gesteuerter Roboter? OpenAI GPT-4 Whisper-Sprachschnittstelle
3. KI-Ökosystem
3.1 Forbes AI 50
Forbes hat in den letzten Jahren die 50 vielversprechendsten KI-Unternehmen des Jahres ausgewählt. Anders als in den Vorjahren stammt die diesjährige Liste der KI-Unternehmen nicht nur aus Nordamerika, sondern umfasst die 50 vielversprechendsten und am meisten geschätzten Unternehmen von mehr als 800 Unternehmen auf der ganzen Welt, aus den Vereinigten Staaten, Kanada, Israel, dem Vereinigten Königreich und Japan.
Nachfolgend finden Sie die vollständige Liste, die ich zusammengestellt habe, einschließlich OpenAI, Jasper, Hugging Face, Adept … alle KI-Startups, die Sie kennen. Interessierte Schüler können es auf der Forbes-Website selbst lesen, und ich werde die Diskussion nicht beginnen. Forbe AI 50
3.2 Weitere KI-Startups
Die Einsatzszenarien konzentrieren sich hauptsächlich auf die C-Seite: generativer Text, Audio, Bild, Video + Suche + automatisiertes Kopieren. B-seitige Anwendungen basieren meist auf Integration und können in bestimmten Branchenkategorien erfolgen: Recht, Medizin und Gesundheit, akademische Forschung (Biologie, Physik, Mathematik) und intelligente Analyse. Darüber hinaus gibt es eine KI-Infrastruktur: Vektordatenbank, großes KI-Modell, KI-Sicherheit, Entwicklung und Betrieb DevOps sowie automatisiertes Copilt.
Das Bild unten enthält eine Liste weiterer KI-generierter Unternehmen (März 2023, aus Sicht amerikanischer VCs). Interessierte Studierende können es selbst erleben.
4. Integration großer Modelle und Produkte
4.1 Integrationskosten
Bei den Integrationskosten geht es hier nicht nur um die Entwicklungskosten für die Integration von KI in Produkte, sondern auch um die Lernkosten und die Zeit, die Benutzer benötigen, um mithilfe intelligenter KI-Anwendungen ihre Arbeit in der gleichen Qualität wie in der Vergangenheit zu erledigen. KI-Anwendungen sind nur dann wertvoll, wenn die Integrationskosten deutlich unter den ursprünglichen Kosten (Entwicklungs- und Betriebskosten + Benutzerkosten) liegen.
Integrationskosten = KI-Produktentwicklungskosten + Benutzerkosten für die Verwendung von KI-Anwendungen zur Erledigung von Arbeiten mit gleicher Qualität in der Vergangenheit
Nennen Sie zwei Beispiele, um die Bedeutung der Integrationskosten zu veranschaulichen.
Vorderseite: AIGC generiert Füllmaterialien/Materialien für das Spieldesign.
Es gibt arbeitsintensive Arbeit im Spieldesign und in der Entwicklung, einschließlich der Vorbereitung von Füllmaterialien, NPC-Charakterdialogen, Stilwechseln, Randszenen … Diese Art von Arbeit stellt keine hohen Anforderungen an Originalität, aber der Zeitaufwand kann nicht wesentlich gesenkt werden.
Wenn Sie KI-Tools verwenden, um solche unwichtigen Materialien zu generieren und sie schließlich von erfahrenen Designern anzupassen, ist es durchaus möglich, die gleichen Qualitätsergebnisse wie in der Vergangenheit zu erzielen.
Integrationskosten von KI-generierten unkritischen Materialien < < < Vorbereitungskosten traditioneller Materialien
AIGC verdient es, im Zusammenhang mit Spielmaterialien gefördert zu werden.
Auf der anderen Seite: Eine Lösung zur Generierung fortschrittlicher Anzeigen mithilfe von KI aus einer Hand.
Obwohl KI-Werbelösungen die Kosten für die Generierung von Texten, Bildern und Videos im bisherigen Werbeerstellungsprozess offenbar gesenkt haben, erfordert eine wirklich attraktive und fortschrittliche Werbung oft einen extrem großen Umfang an individueller Erstellung und sekundären Änderungen.
Wenn also echte Nutzer (Werbedienstleister, die KI-Erstellung nutzen, oder Werbenachfrager, die Werbetreibende eliminieren wollen) sekundäre Anpassungen an den durch KI generierten Werbeinhalten vornehmen, ist es sehr aufwändig, das gleiche Qualitätsniveau wie bisherige Werbung zu erreichen. Der Anpassungsaufwand ist viel höher als bei herkömmlichen Methoden und in den meisten Fällen ist es sogar unmöglich, die gleiche Qualität zu erreichen.
KI-Integrationskosten für High-End-Werbung > > > Ursprüngliche Kosten für traditionelle Werbung.
Ein KI-Service aus einer Hand löst eine fortschrittliche, maßgeschneiderte Werbeerstellung, die heute nicht mehr realistisch ist.
Wenn sich die Modellleistung verbessert, ändern sich natürlich auch die Marktmittel und Marktpräferenzen (Präzisionsmarketing, maßgeschneiderte Präferenzen). Der aktuelle negative Fall wird zu einem positiven Fall, und der positive Fall kann auch zu einem negativen Fall werden.
4.2 Integrationsmethoden
Große Modelle werden zwei Arten von Produkten antreiben. Ein brandneues Produkt, das auf KI-Funktionen basiert, kann als AI Naive/AI Native bezeichnet werden. Die andere besteht darin, KI-Funktionen zu herkömmlicher Software hinzuzufügen und eine intelligente Transformation durchzuführen, die als KI-Upgrade/KI-Upgrade bezeichnet werden kann. Diese beiden Methoden bilden unterschiedliche Produkt-Benutzeroberflächen.
Die wichtigsten Faktoren bei der Integration von KI-Produkten:
1. Leistung des KI-Modells
2. Die Kosten für die Entwicklung und den Betrieb von KI-Produkten + die Kosten für Benutzer, die KI-Anwendungen nutzen (Integrationskosten).
5. Informationen zum KI-Tool
Die Zusammensetzung von KI-Anwendungen: Infrastruktur Infra + Middleware Middleware + Anwendung (diese Definitionen können sich überschneiden)
5.1 KI-Anwendung | Anwendung
-Suchmaschinen: Neues Bing, Google Bard
-Chat-Fragen und Antworten: ChatGPT, Jasper, verschiedene Smart-Chat-Anwendungen
– Vincent Pictures: Midjourney, Stable Diffusion
– Vincent Video: Start- und Landebahn
-Automatisierung: Adept
…
Weitere Tool-Referenzen (inländisch): AI-Toolbox | AI-Tool-Sammlung | AI-Website-Navigation
5.2 Middleware |
Das große Modell ist ein Basismodell, das über das umfangreichste Wissen verfügt und starke Generalisierungsfähigkeiten aufweist, aber seine Genauigkeit in präzisen Szenarien ist unzureichend. Dies ist auch die größte Herausforderung bei der Anwendung großer Modelle. Die Bedeutung von Middleware besteht darin, das Wissen professioneller Szenarien zu organisieren, die Wissensbasis von Modellen zu erweitern, die KI-Genauigkeit zu verbessern und schließlich praktische und benutzerfreundliche Schnittstellen für die Verbindung von Anwendungen der oberen Ebene bereitzustellen. Da die Kosten für Schnittstellen in natürlicher Sprache sehr gering sind, stellen viele Middleware direkt Anwendungsschnittstellen und ein Chat-Fenster bereit, wie beispielsweise das erste AgentGPT.
-AgentGPT
https://github.com/reworkd/AgentGPT
https://agentgpt.reworkd.ai/
Weitere Middleware-Tools:
-Langchain: https://github.com/hwchase17/langchain
-AutoGPT: https://github.com/Significant-Gravitas/Auto-GPT
-BabyAGI: https://github.com/yoheinakajima/babyagi
-HuggingGPT: https://github.com/huggingface/transformers
…
Es gibt viele ähnliche Middlewares, daher werde ich sie nicht alle auflisten.
5.3 Infrastruktur | Infrastruktur
-Modell
Große Modelle: OpenAI GPT, Google Bard, Anthropic, Wenyan Yixin, Baichuan Intelligence …
Open-Source-Modell:
Lama: https://github.com/facebookresearch/llama
Alpaka: https://github.com/tatsu-lab/stanford_alpaca
Vicuna: https://lmsys.org/blog/2023-03-30-vicuna/
GPT4ALL: https://github.com/nomic-ai/gpt4all
ChatGLM: https://github.com/THUDM/ChatGLM-6B
Baichuan-7B: https://github.com/baichuan-inc/baichuan-7B
…
Stabile Diffusion (Bildmodus): https://github.com/AUTOMATIC1111/stable-diffusion-webui
-DatenbankDatenbank
Weitere Informationen finden Sie in der von OpenAI empfohlenen Vektordatenbank: https://platform.openai.com/docs/guides/embeddings/how-can-i-retrieve-k-nearest-embedding-vectors-quickly
Zilliz hat ein Open-Source-Produkt Milvus: https://github.com/milvus-io/milvus
-Kompilierung und Ausführung von Compilation & DevOps
Die Ausführung großer Modelle auf lokalen Geräten und Low-End-Geräten stellt ein Hindernis für die Verteilung von KI-Funktionen dar.
MLC-LLM (Machine Learning Compilation-LLM) ist ein Kompilierungstool für ML. Es ermöglicht die lokale Ausführung großer Modelle. https://mlc.ai/mlc-llm/
Die Nutzungserfahrung ist wie folgt. Installieren Sie das Tool mlc-chat-cli-nightly über conda in der lokalen Umgebung, laden Sie das Modell von Hugging Face herunter und führen Sie das große Modell auf dem lokalen Mac für Fragen und Antworten aus:
Führen Sie große Modelle lokal auf Mobilgeräten aus:
6. Fazit
Großes Modell: Bei großen Closed-Source-Modellen wie GPT liegen die Herausforderungen in der Modellszenariierung, Datensicherheit, Genauigkeit, Debugging-Effizienz, Prompt Engineering und dem Andocken von Engineering-Schnittstellen. Open-Source-Modelle zur Selbstbereitstellung sind keine rein großen Modelle. Die Herausforderungen liegen in Geschwindigkeit, Leistung und Benchmark-Leistung.
Middleware: Verbindet die Modellschicht und die Anwendungsschicht, stellt Wissens-Plug-Ins in bestimmten Bereichen bereit, erweitert Anwendungsszenarien und stellt schnell Anwendungsschnittstellen bereit und reduziert die Entwicklungs- sowie Betriebs- und Wartungskosten.
Anwendungsschicht: Toleranz der Modellleistung in Nutzungsszenarien, Nutzen = Nutzungswert – Integrationskosten; Gefahrenreaktion: KI-Illusion, KI-Sicherheit.
Die Benutzeroberfläche ist der starke Klebstoff, der Menschen und Computer verbindet. Auf dieser Schnittstelle findet das Produktdesign statt. Die durch GPT verursachte Revolution wird enorme Auswirkungen auf die Produkt-Benutzeroberfläche haben. Der Inhalt dieses Artikels ist meine Recherche und Zusammenstellung von KI-bezogenen Informationen in den letzten Monaten. Dieser evolutionäre Weg muss berücksichtigen, dass die Modellleistung unvollkommen ist, angefangen bei der Textinteraktion über die Erweiterung zu reichhaltigen und vielfältigen Multimodalitäten bis hin zur Nutzung neuer interaktiver Erfahrungen, um alte und brandneue Bedürfnisse zu erfüllen.
Die Kerngeschäftsfrage der KI-Revolution wird immer sein: Was ist das für eine Schnittstelle?
Lassen Sie mich mit Lennons Worten schließen: Am Ende wird alles gut. Wenn es nicht gut ist, ist es nicht das Ende.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner: aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo