Auf dem iPad können auch Modelle der GPT-4o-Ebene ausgeführt werden. Das neue Modell der heimischen kleinen Stahlkanone macht KI-Hardware möglicherweise nicht mehr unbrauchbar.
Auf der gerade zu Ende gegangenen CES 2025-Messe bestätigten Tausende von KI-Hardwareprodukten einen unumstößlichen Branchentrend: Die KI breitet sich mit überwältigender Dynamik aus der Cloud auf jedes Gerät um uns herum aus, und jede Welle wird immer größer.
Man kann sagen, dass KI nicht länger ein Pluspunkt für Produkte ist, sondern die Grundlage für die Produktfähigkeiten.
Für traditionelle Hersteller, die viel Aufwand in die Hardware gesteckt haben, ist es nicht einfach, KI in kleine Endgeräte einzubauen. Glücklicherweise hat sich die KI-Modelldienstleistungsbranche nach und nach in zwei klare Richtungen differenziert: Cloud-KI und On-Device-KI.
Im ersteren Bereich sind die von OpenAI vertretenen Hersteller schon lange jedem bekannt, und im letzteren Bereich sticht ein Unternehmen besonders ins Auge: Wall-Facing Intelligence. Sie haben von Anfang an auf die geräteseitige KI-Route gesetzt und sind mittlerweile zu einem wichtigen Player geworden, der in diesem Bereich nicht ignoriert werden darf.
Face Wall Intelligence hat heute außerdem offiziell ein neues Modell MiniCPM-o 2.6 veröffentlicht.
Mit nur 8 Milliarden Parametern kann es wie ein Mensch Videos ansehen, Geräusche anhören, Texte lesen und eloquent sprechen. Darüber hinaus ist seine Reaktion so schnell wie die des Menschen, nahezu ohne Verzögerung. Um es allgemeiner auszudrücken: Es kann mit seinen Augen sehen, mit seinen Ohren hören, mit seinem Mund sprechen und mit seinem Gehirn denken wie ein Mensch.
MiniCPM-o 2.6 Open-Source-Adresse:
GitHub https://github.com/OpenBMB/MiniCPM-o
Umarmendes Gesicht :https://huggingface.co/openbmb/MiniCPM-o-2_6
Echtes Video, kein Fotomodell
Wenn wir sagen, dass MiniCPM-o 2.6 ein „echtes Videomodell“ ist, ist das kein leeres Gerede. Als weltweit erste lokale KI, die das GPT-4o-Niveau erreicht, demonstriert sie umfassende Wahrnehmungsfähigkeiten, die über Cloud-Modelle hinausgehen.
In der offiziellen Demo kann es beim Spielen des Spiels „Three Immortals Return to the Cave“ die Position des Balls verfolgen, bevor das Publikum Fragen stellt; beim Spielen des Memory-Kartenspiels kann es sich das Muster und die Position jeder Karte genau merken . .
Im Vergleich zu einigen Modellen oder Produkten auf dem Markt, die behaupten, Echtzeit-Streaming-Videoverständnis zu unterstützen, kann MiniCPM-o 2.6 Bilder und Töne wahrnehmen, bevor der Benutzer Fragen stellt, sodass er hören, sehen und fühlen kann und näher dran ist die natürliche visuelle Interaktion des menschlichen Auges.
Diese Fähigkeit der kontinuierlichen Beobachtung und des Echtzeitverständnisses können andere große Fotomodelle nicht erreichen.
Lassen Sie uns über Geräusche sprechen. MiniCPM-o 2.6 kann nicht nur menschliche Sprache verstehen, sondern auch andere Hintergrundgeräusche als menschliche Stimmen unterscheiden, wie z. B. zerreißendes Papier, strömendes Wasser, Metallkollision und andere Geräusche. Und selbst GPT-4o kann das nicht.
Das gleiche „Hallo“, das in verschiedenen Tönen gesagt wird, kann eine herzliche Begrüßung oder eine kalte Antwort sein.
Die Kommunikation zwischen Mensch und KI sollte so natürlich sein.
Herkömmliche KI-Modelle verarbeiten Geräusche ein wenig wie eine andere Form der „Übersetzung“, indem sie zunächst Töne in Text umwandeln und den Text dann wieder in Töne umwandeln. Auf diese Weise gehen subtile Merkmale wie der Akzent und die Emotionen des Sprechers verloren.
Aber MiniCPM-o 2.6 ist anders.
Genau wie das menschliche Ohr kann es verschiedene Details im Klang direkt erfassen und verstehen. Darüber hinaus kann es die Emotion und den Stil des Klangs nach Bedarf anpassen und sogar bestimmte Geräusche imitieren oder auf der Grundlage von Beschreibungen völlig neue Geräusche erstellen.
Die hervorragende Leistung von MiniCPM-o 2.6 im echten Leben wird auch in der Benchmark-Testliste gut quantifiziert und es hat alle SOTA im audiovisuellen „Triathlon“ erreicht:
MiniCPM-o 2.6 hat das Echtzeit-Streaming des vollmodalen Open-Source-Modells SOTA erreicht, und seine Leistung ist mit GPT-4o und Claude-3.5-Sonnet vergleichbar, die in Bezug auf Sprache das weltweit höchste Niveau darstellen und Generierung von Open-Source-Dual-SOTA, das das stärkste universelle Open-Source-Voice-Modell anstrebt;
Auf StreamingBench, einer repräsentativen Liste von Echtzeit-Streaming-Video-Verständnisfunktionen, ist die Leistung von MiniCPM-o 2.6 auch mit GPT-4o und Claude 3.5 Somnnet vergleichbar. Es ist zu beachten, dass die GPT-4o-API nicht gleichzeitig Sprache und Video eingeben kann. Derzeit werden bei der quantitativen Auswertung Text und Video eingegeben.
In Bezug auf das Sprachverständnis übertrifft es Qwen2-Audio 7B und realisiert das allgemeine Open-Source-SOTA-Modell (einschließlich ASR, Sprachbeschreibung und andere Aufgaben); in Bezug auf die Sprachgenerierung übertrifft MiniCPM-o 2.6 GLM-4-Voice 9B und realisiert das allgemeine Modell Open Source SOTA.
Von „benutzbar“ zu „einfach zu bedienen“ stellten wir uns der Wand und gingen unseren eigenen Weg
Die Einführung von MiniCPM-o 2.6 ist untrennbar mit seinen technologischen Durchbrüchen bei der Modellkomprimierung, der Hardwareanpassung und der vollmodalen Streaming-Architektur verbunden.
- Durchgängige, vollmodale Streaming-Architektur: Basierend auf dem 4B-Modell von MiniCPM 3.0 wird durch modularen Aufbau eine einheitliche Verarbeitung von Bild und Stimme erreicht. Die Module sind durchgängig miteinander verbunden, um eine verlustfreie Übertragung multimodaler Informationen zu gewährleisten und die Natürlichkeit der generierten Inhalte zu verbessern.
- Modale Parallelitätstechnologie mit geringer Latenz: nutzt auf innovative Weise die Zeitmultiplextechnologie, um das Eingangssignal zur parallelen Verarbeitung in Zeitscheiben aufzuteilen. Intelligente Semantik wird verwendet, um den Endzeitpunkt der Benutzereingabe zu bestimmen und so Verzögerungen bei der Systemantwort effektiv zu reduzieren.
- Durchgängiges, vollmodales Streaming-Lernen: Basierend auf der Theorie des Sprachverhaltens verarbeitet das Modell nicht nur Informationen, sondern versteht auch die sozialen Absichten des Sprechers. Durch multimodales Umgebungslernen und Rollenspiele wird ein fortgeschritteneres semantisches Verständnis erreicht und die Grundlage für zukünftige verkörperte Roboteranwendungen gelegt.
Wenn wir unsere Aufmerksamkeit von diesen überwältigenden technischen Errungenschaften auf die tatsächliche Betriebsumgebung des End-Side-Modells richten, müssen wir uns tatsächlich einer objektiven Realität stellen. Die Modellbereitstellung auf Endgeräten steht immer noch vor drei großen Herausforderungen: Speicher, Stromverbrauch und Rechenleistung.
Apple wies in seinem Artikel „LLM in a flash“ darauf hin, dass ein Sprachmodell mit 7 Milliarden Parametern mit halber Genauigkeit mehr als 14 GB DRAM-Speicherplatz erfordern würde, um vollständig in das Terminal geladen zu werden Batterieenergie von ca. 5.000 Joule. Für das iPhone unterstützt nur das 7B-Modell weniger als 2 Stunden Gespräch bei einer KI-Generierungsrate von 10 Token/Sekunde.
Um einen Elefanten in den Kühlschrank zu bringen, haben Hersteller von Mobiltelefonchips die Forschung und Entwicklung von KI-Chips beschleunigt und sich dabei auf fortschrittliche Herstellungsprozesse, Speicherkapazität und -bandbreite sowie CPU- und GPU-Leistung konzentriert. Mobiltelefonmarken werden auch leistungsstärkere Akkus und Kühlkomponenten ausrüsten, um die Hardware-Fähigkeiten der Endgeräte insgesamt zu verbessern und KI-Modelle besser zu unterstützen.
Allerdings sind Hardware-Verbesserungen nur ein Teil der Lösung. Der eigentliche Engpass besteht darin, mehr Intelligenz mit weniger Parametern zu transportieren. .
Untersuchungen des Wallface-Teams zeigen, dass durch die gemeinsame Weiterentwicklung von Daten, Rechenleistung und Algorithmen das gleiche Maß an Intelligenz mit weniger Parametern erreicht werden kann. Beispielsweise werden die Fähigkeiten von GPT-3, für das im Jahr 2020 175 Milliarden Parameter erforderlich waren, bis Februar 2024 mit nur 2,4 Milliarden Parametern erreicht.
Basierend auf dieser Entdeckung schlug das Wall-Facing-Team bereits letztes Jahr das Dichtegesetz für große Modelle (Densing Law) vor.
Die Modellfähigkeitsdichte nimmt mit der Zeit exponentiell zu, und Modellparameter, die die gleiche Fähigkeit erreichen, verringern sich alle 3,3 Monate (ungefähr 100 Tage) um die Hälfte. Der Modellinferenzaufwand nimmt mit der Zeit exponentiell ab, und der Modelltrainingsaufwand nimmt mit der Zeit schnell ab.
Das Modell wird effizient komprimiert und schließlich an die Terminal-Hardware angepasst, und der daraus resultierende Branchenfortschritt wird von selbst kommen.
Der nächste Wendepunkt in der Unterhaltungselektronik ist nicht länger ein einfaches Hardware-Upgrade, sondern eine Änderung der Art und Weise, wie Produkte verwendet werden, und des Benutzererlebnisses aufgrund der zugrunde liegenden Logik, was auch neue Chancen und Wachstumspunkte für den Markt mit sich bringt.
Die Nachfrage der Verbraucher nach On-Device-KI-Produkten steigt weiter und sie sind bereit, höhere Preise für intelligentere und praktischere Produkte zu zahlen. Dies wird Unternehmen dazu veranlassen, ihre Investitionen in On-Device-KI-Technologieforschung und -Entwicklung sowie Produktinnovation zu erhöhen.
Laut IDC-Prognosen werden im Jahr 2024 mehr als die Hälfte der Geräte auf dem chinesischen Endgerätemarkt über die Rechenleistungsgrundlage für KI-Rechenaufgaben auf Hardwareebene verfügen. Bis 2027 wird dieser Anteil weiter auf fast 80 % steigen.
Auf der CES 2025 haben wir auch gesehen, dass die Integration geräteseitiger Modelle und Hardware zu einer Reihe elektronischer Produkte geführt hat, darunter AIPC, AIPhone, AI-Smart-Brillen, AI-Begleitspielzeuge usw.
Auch der Entwicklungsverlauf der Wandintelligenz bestätigt diesen Trend.
Erst in der zweiten Hälfte des letzten Jahres wurde das wandorientierte intelligente Endseitenmodell MiniCPM in beschleunigtem Tempo auf den Markt gebracht. Es hat sukzessive Kooperationsbeziehungen mit Huawei Cloud, Accelerated Evolution Robot, Elephant Robot, Wutong Technology und Great Wall Motors aufgebaut. MediaTek, Baidu Smart Cloud und Intel, und sein Geschäftsgebiet hat sich auf intelligentes Cockpit, Roboter, Geräte-Cloud-Zusammenarbeit und andere Bereiche ausgeweitet.
Li Dahai, CEO von Wall-Facing Intelligence, sagte in einem Interview mit APPSO, dass sich MiniCPM-o 2.6 auf Geräte mit starken verkörperten Eigenschaften konzentrieren wird. Derzeit hat Wall-Facing Intelligence eine intensive Kooperationsbeziehung mit Herstellern humanoider Roboter aufgebaut, um deren Entwicklung zu beschleunigen.
Seiner Meinung nach kann dieses vollmodale Endseitenmodell die „Gehirn“-Funktion des Roboters verbessern und wichtige technische Unterstützung für das Ontologiesystem des Roboters bieten. Er freut sich auch auf die Integration mit weiteren Roboterherstellern, Automobilen, Mobiltelefonen usw. usw. Arbeiten Sie mit Geräteherstellern mit speziellen Eigenschaften zusammen.
Wenn wir auf die Entwicklungsgeschichte von MiniCPM zurückblicken, von der Veröffentlichung des clientseitigen Flaggschiffmodells MiniCPM 1.0 der ersten Generation bis zur Iteration auf MiniCPM 3.0, haben wir den clientseitigen ChatGPT-Moment eingeläutet. MiniCPM praktiziert seit jeher die Linie „klein und breit + hohe Effizienz und niedrige Kosten“.
Dabei steht Wall-Facing Intelligence seit jeher im Trend zu Open-Source-Großmodellen in China.
Seit ihrer Veröffentlichung im Februar 2024 wurde die MiniCPM-Reihe von Endseitenmodellen mehr als 4 Millionen Mal heruntergeladen und ist damit das beliebteste chinesische Modell der Welt in Hugging Face 2024.
Die Inklusivität der KI-Technologie durchläuft drei Entwicklungsstufen: Erstens wird die Nutzung für jedermann erschwinglich gemacht, dann wird die Nutzung bequemer und schließlich wird die Nutzung komfortabel.
Wandorientierte Intelligenz beschleunigt die Transformation dieser letzten Meile.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo