Leistung übertrifft GPT-4 Turbo! „SenseTime RiRixin“ wurde stark aufgewertet und ein inländischer großer Modellsupermarkt eröffnet

April 23, 2024 Eskere Guru

Einige Jahre bevor die Welle großer Modelle über uns hereinbrach, gab es tatsächlich eine Welle des KI-Unternehmertums. Unter ihnen sind SenseTime Technology, Megvii Technology, Yuncong Technology und Yitu Technology Vertreter dieser Zeit. Diese vier Unternehmen sind auch als „Vier kleine Drachen der chinesischen KI“ bekannt.

In dieser von OpenAI ausgelösten neuen Welle steht SenseTime, einer der vier kleinen Drachen, immer noch im Mittelpunkt. Im April letzten Jahres veröffentlichte SenseTime die Reihe „Ririxin·Large Model“. Es war eines der ersten Unternehmen in China, das ein großes Sprachmodell auf der Grundlage von Hunderten Milliarden Parametern auf den Markt brachte.

Es ist jeden Tag neu und es ist jeden Tag neu.

Tang, der Gründer der Shang-Dynastie, hat das obige Selbstermahnungsmotto in die Badewanne eingemeißelt. Ebenso wie die Tiefe der Veränderungen im AIGC-Bereich heute kann auch der Aktualisierungsrhythmus der großen Modelle von Shang Tang als „jeden Tag neu“ beschrieben werden. "

Vor zwei Monaten brachte SenseTime das große Modellsystem „Ririxin SenseNova 4.0“ auf den Markt und brachte sogar die weltweit erste Assistenten-API auf den Markt, die vor OpenAI verschiedene modale Toolaufrufe unterstützt.

Und heute Nachmittag hat SenseTime, also „Rixin“, weiterhin eine Reihe generativer KI-Modelle und -Anwendungen auf Basis von „Rixin“ auf den Markt gebracht. Lassen Sie mich zunächst die Highlights hervorheben:

Ririxin 5.0: erreicht oder übertrifft GPT-4 Turbo in gängigen objektiven Bewertungen
1.8B-Endseitenmodell: Beste Leistung im gleichen Maßstab, führend in allen Maßstäben
All-in-one-Anwendungsmaschine auf Unternehmensebene: für Finanzen, Medizin, Regierungsangelegenheiten, Codierung und andere Bereiche
Wensheng-Videogenerierungsplattform, die noch nicht gestartet wurde

Schlag GPT-4 Turbo, kick DALL·E 3

Im Zeitalter der KI 2.0 gilt generative KI als wichtige Technologie, die die Produktivitätssteigerung fördert. Wenn es ihr gelingt, Durchbrüche in den dreischichtigen Fähigkeiten Wissen, Argumentation und Ausführung zu erzielen, wird sie wirklich einen Sprung bewirken. Weiterentwicklung der Produktivität der gesamten Gesellschaft.

Letzten Monat vertrat Xu Li, CEO von SenseTime, auf der GDC 2024 den oben genannten Standpunkt. Auf der heutigen Pressekonferenz betonte er erneut, dass SenseTime die dreistufige KRE-Architektur für große Modellfunktionen unter Anleitung des Gesetzes weiter erforschen wird der Skalierung (Wissen-Begründung-Ausführung), die ständig die Grenzen der Möglichkeiten großer Modelle durchbricht.

Was sind also die Update-Highlights des neu aktualisierten RiRixin SenseNova 5.0 (im Folgenden als RiRixin 5.0 bezeichnet)?

Übernehmen Sie die MoE-Architektur
Basierend auf dem 10-TB-Token-Training ist eine große Menge synthetischer Daten vorhanden
Das Inferenzkontextfenster unterstützt 200 KB
Umfassendes Benchmarking von Wissen, Argumentation, Mathematik und Code mit GPT-4 Turbo

Ririxin 5.0 Dieses Update konzentriert sich hauptsächlich auf die Verbesserung von Wissen, Mathematik, Argumentation und Programmierfähigkeiten und ist vollständig auf GPT-4 Turbo abgestimmt.

In objektiven Mainstream-Bewertungen hat RiRiXin 5.0 die von OpenAI letztes Jahr auf der Entwicklerkonferenz veröffentlichte GPT-4 Turbo-Version erreicht oder übertroffen und auch das kürzlich veröffentlichte Llama 3-70B fast vollständig vernichtet.

Alles Gerede und keine Übung: Auf der Pressekonferenz demonstrierte SenseTime auch vollständig die tatsächlichen Fähigkeiten von Ririxin 5.0 in Bezug auf Sprache, mathematisches Denken und andere Aspekte.

Geben Sie auch eine Aufsatzfrage für die Hochschulaufnahmeprüfung 2022 ein und vergleichen Sie sie mit GPT-4 Turbo (nur die Version vom November letzten Jahres, die gleiche unten). Es ist ersichtlich, dass die von Ririxin 5.0 generierten Ergebnisse frei von den Einschränkungen von Vorlagen sind und Routinen, und mehr Leute haben, auf den ersten Blick ist es ein Artikel, der ins Herz des Lehrers für die Hochschulaufnahmeprüfung eindringen kann.

Angesichts der Qual der mathematischen Probleme fühlte sich GPT-4 Turbo nicht nur etwas kompliziert, sondern auch die Endergebnisse waren falsch. Die von RiRixin 5.0 erhaltenen Antworten waren jedoch sehr logisch und völlig korrekt.

Die Branchendifferenzierung ist ein Schlüsselfaktor für große Modelle, um sich von der Konkurrenz abzuheben.

Ririxin 5.0, das auf lokalisierte Anwendungsszenarien abzielt, ist beim Verständnis der einzigartigen Kultur und des Kontexts des Chinesischen besser als GPT-4 Turbo. Da GPT-4 Turbo mit dem chinesischen Kontext nicht vertraut ist, ist es natürlich nicht in der Lage, die lokalen Spielregeln von „Eagle Catching Chicken“ genau zu verstehen.

Multimodale Fähigkeiten werden von der Branche allgemein als Schlüssel zur Erreichung von AGI angesehen.

Den Benchmark-Testergebnissen nach zu urteilen, kann RiRixin 5.0 auch hart mit GPT-4V konkurrieren, und beide Seiten gewinnen oder verlieren. In der tatsächlichen Falldemonstration ist der Effekt der Erzeugung eines alten Elefanten in Sekundenschnelle mit Unterstützung von RiRiXin 5.0 natürlicher. Wenn jedoch das gleiche Problem einem Freund präsentiert wird, liegt möglicherweise sogar ein dreibeiniger Trugschluss vor.

Basierend auf dem Porträtbild, das mit derselben Eingabeaufforderung generiert wurde, ist die von Miahua von SenseTime generierte Hauttextur natürlich, ohne übermäßige Hautpolitur und Filter und vervollständigt erfolgreich den „schönen“ Indikator. Wenn man bedenkt, dass die internationale Datenbank asiatischer Porträts, die zum Trainieren von KI-Modellen verwendet wird, relativ begrenzt ist, sind solche Vergleichsergebnisse relativ normal.

In Kombination mit multimodalen und Datenanalysefunktionen kann KI komplexere und anspruchsvollere Aufgaben lösen.

RiRiXin 5.0 kann die zusammenfassende Beschreibung von Didi-Taxis identifizieren. Es kann auch die Kalorien von Chinas einzigartigem Frühstück berechnen. Vielleicht sind es nur zwei Augen . Diskreditieren.

Es heißt immer, dass KI den Arbeitsablauf neu gestalten wird. Diesmal hat SenseTime auch in dieser Hinsicht die Fähigkeiten des Bürowaschbären unter Beweis gestellt.

Geben Sie die dreijährige Teilnahmebilanz des F1-Rennfahrers Zhou Guanyu in das System ein und lassen Sie den Tiger ein Histogramm der Anzahl der Rennen zeigen, an denen er teilgenommen hat. Diese Aufgabe scheint einfach, beinhaltet aber tatsächlich auch komplexe Identifikationsprobleme.

Bei internationalen Wettbewerben tritt Zhou Guanyu unter seinem englischen Namen an. Herkömmliche große Modelle weisen bei Erkennungsaufgaben, an denen unkonventionelle englische Schreibweisen oder bestimmte Personen beteiligt sind, tendenziell eine schlechte Leistung auf. Obwohl der in Ririxin 5.0 aktualisierte Bürowaschbär einige Wendungen erlebte, wurde er schließlich erfolgreich gezeichnet.

Großes End-to-Side-Modell, nur schnell und nie kaputt

In der Welt der Kampfkünste betont „die einzige Kampfkunst der Welt, die nicht gebrochen werden kann, die Schnelligkeit“ die Bedeutung der Geschwindigkeit im tatsächlichen Kampf, und in großen Schlachten gilt dieses Prinzip auch.

Mit der rasanten Entwicklung der Großmodelltechnik stellen die Anforderungen unterschiedlicher Einsatzszenarien wie Smartphones, Computer und VR-Brillen immer höhere Anforderungen an die Nutzungshäufigkeit, Leistungsgeschwindigkeit, Sicherheit und Stabilität großer Modelle .

SenseTime, das pragmatischer geworden ist, stellte auf dieser Konferenz auch offiziell das Endseitenmodell der SenseChat-Lite-Version im Maßstab 1,8B vor.

Im Benchmark-Test übertraf dieses End-Side-Modell die großen Modelle der gleichen Größenordnung wie MiniCPM-2B und Phi-2 bei weitem und übertraf sogar einige große 7B- und 13B-Modelle. In den Worten von Xu Li ist es die beste Leistung gleiche Skala. Ausgezeichnet, führend auf allen Ebenen.

Untersuchungen zeigen, dass die schnellste Lesegeschwindigkeit des menschlichen Auges etwa 20 Wörter/Sekunde beträgt und das mit 1,8B ausgestattete SenseTime-Gerätemodell auf einem Mittelklasse-Mobiltelefon eine Geschwindigkeit von 18,3 Wörtern/Sekunde erreichen kann, während das Flaggschiff-Mobiltelefon eine Geschwindigkeit von 18,3 Wörter/Sekunde erreichen kann Das Telefon unterstützt bis zu 78,3 Wörter/Sekunde und ist damit die schnellste Inferenzgeschwindigkeit der Branche.

SenseTime hat außerdem eine Lösung für die Zusammenarbeit zwischen Gerät und Cloud auf den Markt gebracht, die die jeweiligen Vorteile des Geräts und der Cloud durch intelligente Zusammenarbeit nutzen kann. Wenn Internetsuchen oder komplexe Szenen verarbeitet werden müssen, werden diese in einigen Szenarien zur Verarbeitung verlagert. Die endseitige Verarbeitung macht mehr als 80 % aus, wodurch die Inferenzkosten erheblich gesenkt werden.

In wenigen Sekunden können wir mit „Consultation“ schnell reagieren, sei es die Erstellung eines Urlaubsantragsberichts in wenigen Sekunden oder die Zusammenfassung eines Dokuments mit mehreren tausend Wörtern.

Das geräteseitige Diffusionsmodell kann auch die schnellste Inferenzgeschwindigkeit in der Branche erreichen. Auf einer Mainstream-Plattform hat die geräteseitige LDM-AI-Bilderweiterungstechnologie eine Inferenzgeschwindigkeit von weniger als 1,5 Sekunden, was zehnmal schneller ist als die von Konkurrierende Cloud-Apps unterstützen die Ausgabe von 12 Millionen Pixeln und mehr. Hochauflösende Bilder unterstützen Bildbearbeitungsfunktionen wie proportionale Bildvergrößerung, kostenlose Bildvergrößerung und rotierende Bildvergrößerung.

Während der Vorführung vor Ort konnte sich das Personal während der Aufnahme vergrößern und demonstrierte so die Fähigkeit des großen End-to-Side-Modells, „schnell zu fahren, aber nie kaputt zu gehen“.

Darüber hinaus eignet sich das groß angelegte End-to-End-Modell laut Xu Li hauptsächlich für sechs Hauptbereiche: täglicher Dialog, Fragen und Antworten zum gesunden Menschenverstand, Generierung von Texten, Verwaltung von Fotoalben, Bildgenerierung und Bilderweiterung -Geräteanpassung, die einen flexiblen Einsatz in verschiedenen Szenarien und Geräten ermöglicht.

Als Reaktion auf die wachsende Nachfrage nach KI-Anwendungen am Rande wichtiger Branchen wie Finanzen, Programmierung, medizinische Versorgung und Regierungsangelegenheiten hat SenseTime außerdem offiziell eine kostengünstige All-in-One-Anwendungsmaschine auf Unternehmensebene auf den Markt gebracht. gebrauchsfertig, datensicher und landesweit produziert und deckt die Bereiche Finanzen, Medizin, Regierungsangelegenheiten, Codierung und weitere vier wichtige Branchen ab.

Nehmen Sie als Beispiel die intelligente Konsultations- und Frage-und-Antwort-Plattform der Regierung. Sie kann nicht nur die von Benutzern gestellten Fragen verstehen, sondern auch Referenzquellen für Antworten bereitstellen, wodurch das Informationsniveau der Regierungsdienste erheblich verbessert wird.

Xu Li wies darauf hin, dass natürliche Sprache Programmiersprachen immer noch nicht ersetzen kann und dass Copilot eine geeignetere Form sei.

Daher hat SenseTime heute auch eine leichte Version des Großmodell-All-in-One-Geräts Little Raccoon Code herausgebracht, das ein Forschungs- und Entwicklungsteam von 100 Personen auf einer einzigen Maschine unterstützen kann. Unterstützt, dass Daten die Domäne nicht verlassen, die Sicherheit ist garantiert und die kostenlose Bereitstellung kann sofort verwendet werden. Der Preis pro Einheit liegt bei 350.000 Yuan, was eine kostengünstige Option für Anwender kleiner und mittlerer Unternehmen darstellt.

Seit Anfang dieses Jahres hat das Aufkommen von Sora den Menschen das unbegrenzte kreative Potenzial der KI-Videogenerierung gezeigt. Außerdem brachte Xu Li in der letzten Sitzung „Noch eine Sache“ mit – drei Videos, die vollständig von großen Modellen erstellt wurden. Die kommende Wensheng-Videogenerierungsplattform bietet auch eine hervorragende Leistung in Bezug auf die Steuerbarkeit von Charakteren, Aktionen und Szenen.

Die Implementierung von KI-Anwendungen erfordert einen Plug-and-Play-großen Modellsupermarkt

Ein Jahr nach der Veröffentlichung von GPT-4 führen große Models immer noch kontinuierlich Parameter zusammen, um die Rangliste aufzufrischen. Was aber in diesem Jahr allen in der Branche wirklich am Herzen liegt, ist die Frage, wie man große Models durch Agenten in die Arbeitsabläufe unzähliger Unternehmen und Einzelpersonen integrieren kann.

Der GPT Store von OpenAI hat sich nicht wie erhofft zum GPT Store der KI-Branche entwickelt, aber es gibt immer noch viele Bedürfnisse und Probleme. Auch das Fehlen einer reibungslosen Brücke zwischen den leistungsstarken Fähigkeiten großer Modelle und ihrer Implementierung in verschiedenen Branchenszenarien stellt eine große Chance dar.

Die offene RiRixin-Plattform von SenseTime ist eigentlich ein großer Modellsupermarkt. Durch multimodale Modellfunktionen wird die Effizienz von API-Aufrufen verbessert und die Schwelle für Unternehmen und Entwickler, verschiedene KI-Funktionen aufzurufen und anzupassen, wird gesenkt.

Im Vergleich zu den Skalierungsparametern des Modells konzentriert sich SenseTime mehr auf die Anwendung der Modellfunktionen. Von den großen Branchenmodellen von SenseTime für Finanzen, medizinische Versorgung, Regierungsangelegenheiten und Codierung über das clientseitige Modell mit der schnellsten Inferenzgeschwindigkeit in der Branche bis hin zu nativen KI-Anwendungen wie Discuss, Ruying, Dayi und Little Raccoon Family Es ist ersichtlich, dass SenseTime Tang eine KI-Toolbox mit umfangreicheren Schnittstellen bereitstellen möchte, die komplexe Aufgaben in verschiedenen Branchen ausführen kann.

Der von Frost & Sullivan, einem bekannten Forschungsunternehmen, veröffentlichte „2023 China AI Development Platform Market Report“ wies darauf hin, dass SenseCore-Großgeräte zum führenden Cloud-Computing-Infrastrukturanbieter für Chinas KI-Entwicklungsplattformen geworden sind. In den fünf Bewertungspunkten Hardware-Infrastrukturkompatibilität, Zusammenarbeit in der Industriekette, Modul zur Optimierung des Modelltrainings, technische Fähigkeiten für intelligente Anmerkungen und technisches Niveau vor dem Training erhielt SenseTime die höchsten Bewertungen.

Wir haben vor einiger Zeit über die WPS AI-Enterprise-Version von Kingsoft Office berichtet, und eines der großen Modelle, mit denen es zusammenarbeitet, ist SenseTime. Kingsoft sagte, dass SenseTime sich hervorragend für die Datenanalyse eignet, daher nennt WPS AI es für die Handhabung von Szenarien, die wissenschaftliches Denken erfordern.

APPSO bezeichnet Unternehmen wie Kingsoft, die keine großen Modelle produzieren, aber entschlossen sind, große Modelle anzuwenden, als KI-Anwender. Die Rolle von SenseTime ist nicht so sehr ein Anbieter großer Modelle, sondern eher ein Kaufhaus und Supermarkt, der verschiedene Branchen bei der Umsetzung groß angelegter KI-Anwendungen unterstützt.

Was ist ein Kaufhaus? Das Unternehmen verfügt über eine breite Palette an Produktlinien, die den individuellen Bedürfnissen verschiedener Verbraucher, ob groß oder klein, gerecht werden können. Vor allem aber hat das Aufkommen von Kaufhäusern und Supermärkten eine große Produktvielfalt für die Öffentlichkeit zugänglicher gemacht, sodass mehr normale Menschen bequem hochwertige Produkte und Erlebnisse aus der ganzen Welt genießen können.

Und das ist der größte Wert, den uns die entstehende AIGC in Zukunft bringen wird. Als eine der größten Erfindungen der modernen Gesellschaft soll das Unternehmen die vierte industrielle Revolution herbeigeführt haben, was höchstwahrscheinlich von seinen Auswirkungen auf Unternehmen ausgeht. Der verstorbene Tang Xiaoou, Gründer von SenseTime, sagte auch:

Es gibt keine KI-Branche, nur die KI+-Branche. Sie betont, dass KI mit traditionellen Industrien zusammenarbeiten muss und nicht auf Subversion.

Tang Xiaoou erwähnte in einer Rede, dass „Unternehmensfinanzierung nicht zum Brennen da ist, sondern dazu dient, großartige Dinge zu tun“.

Autor: Li Chaofan, Mo Chongyu

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo