Ab sofort hat jeder einen „Van Gogh“ im Handy
Was denken Sie, wie lange es dauert, so eine Folge zu drehen?
In der traditionellen Animationsbranche stellt die Animationsproduktion oft die zeitaufwändigste Verbindung dar. Animatoren müssen die Animationseffekte jeder Einstellung gemäß dem Drehbuch des Storyboards und dem Art Design produzieren.
Vom Design der Charaktere über das Zeichnen von Szenen bis hin zur Erstellung von Animationen benötigt ein Produktionsteam oft mehrere Monate oder sogar ein Jahr.
Aber in letzter Zeit wird dieses Branchengesetz durch KI-Tools neu geschrieben.
Der animierte Kurzfilm, den Sie sich gerade ansehen, besteht aus 120 Aufnahmen mit visuellen Effekten und einer Gesamtlaufzeit von 7 Minuten, und sein Produktionsteam, Corridor, verbrachte nur wenige Stunden mit der Animation.
Das Geheimnis der Effizienz liegt in dem verwendeten Werkzeug – Stable Diffusion.
Kreativität wird noch einmal entfesselt
Wie wir alle wissen, besteht jede bewegte Einstellung in der Animation aus fortlaufenden bewegten Bildern, die von den Künstlern Frame für Frame gezeichnet werden, und hinter jeder Episode der Animation stehen fast Tausende von Skizzen.
Es ist für Corridor fast unmöglich, Animationen Frame für Frame von Hand zu zeichnen, also dachten sie an eine andere Möglichkeit, ein Gemälde zu erstellen: Die Kameraaufnahme ist im Wesentlichen ein Frame-für-Frame-Foto, wenn sie Frame für Frame in einen Animationsstil umgewandelt wird Wieder zusammennähen, ist das nicht nur Animation?
Um Fotos stapelweise in Animationsbilder umzuwandeln, dachte Corridor zunächst an das beliebteste KI-Zeichenwerkzeug: Stable Diffusion.
Gegenüber KI-Zeichenwerkzeugen wie Dall-E 2 und Midjourney liegt einer der Vorteile von Stable Diffusion darin, dass es sich um ein Open-Source-Projekt handelt: Nutzer können die am besten geeignete Datenbank lokal vorbereiten, KI gezielt den Zeichenstil lernen lassen, und dann Batches generieren Der Stil des Bildes.
Entsprechend dem vorab konzipierten Setting ließ Corridor Stable Diffusion eine große Anzahl von Bildern aus „The Vampire Diaries“ sowie Fotos aus verschiedenen Blickwinkeln der beiden Hauptdarsteller lernen, damit die transformierten animierten Bilder so akkurat wie möglich sein können und der Stil neigt dazu, einheitlich zu sein.
Nachdem Stable Diffusion das gesamte Video in einen Animationsstil konvertiert hat, werden einige instabile Bilder entfernt und das Flimmern eliminiert und schließlich wird der grüne Bildschirm durch den von der virtuellen Kamera aufgenommenen Hintergrund ersetzt.Ursprünglich brauchte es ein Dutzend Maler, um für mehrere zu zeichnen Wochen Die Animation ist fertig.
Wollen Sie bei diesem Anblick auch Ihrer Fantasie freien Lauf lassen, selbst einen animierten Kurzfilm drehen oder sich in diverse Fantasy-Helden verwandeln?
Stable Diffusion hat zwar den Vorteil einer hohen Steuerbarkeit, aber um es steuern zu können, benötigen Sie zunächst eine leistungsstarke Computerumgebung auf der Server- oder lokalen Seite, damit es ausgeführt werden kann.
Mit anderen Worten, wenn Sie keine Vorstellungskraft haben, aber keine starken Lern- und Verarbeitungsfähigkeiten für natürliche Sprache und keine KI-Rechenleistung als Unterstützung haben, können Sie Stable Diffusion immer noch nicht zum Erstellen verwenden.
Gibt es also eine Möglichkeit, wie normale Menschen ganz einfach selbst einen einzigartigen Avatar zeichnen können?
Es gibt sie wirklich, und solange "Sie ein Handy haben".
Auf der MWC-Konferenz demonstrierte Qualcomm zum ersten Mal Stable Diffusion, das lokal auf einem Android-Telefon ausgeführt wird, und zeigte auch mehrere KI-Bilder, die auf der Telefonseite generiert wurden.Der Effekt sieht ziemlich gut aus und der gesamte Vorgang dauert weniger als 15 Sekunden.
Die Parameter von Stable Diffusion übersteigen 1 Milliarde. Gewöhnliche Computer sind sehr schwer zu betreiben. Wie "stopft" Qualcomm ein so riesiges Modell in das Handy und bringt es auf dem SoC des Handys zum Laufen?
Um „den Elefanten in den Kühlschrank zu stellen“, optimierten die Ingenieure von Qualcomm zunächst den Elefanten.
Hier müssen wir zunächst eine wesentliche Verbesserung der KI in der mobilen Snapdragon 8-Plattform der zweiten Generation, Natural Language Processing (NLP), erwähnen.
Die Verarbeitung natürlicher Sprache stellt eines der neuen Anwendungsfelder von KI dar. Um die menschliche Sprache so schnell wie möglich zu verstehen und zu zerlegen, hat Qualcomm den Hexagon-Prozessor erheblich verbessert und die Hardwarebeschleunigung erhöht, wodurch das Transformer-Netzwerk schneller und effizienter ausgeführt werden kann Reduzieren Sie die Verarbeitungsgeschwindigkeit durch Micro-Slicing-Argumentation.Der Stromverbrauch lässt den Snapdragon 8 der zweiten Generation einzigartige Vorteile in Anwendungsfällen für die Verarbeitung natürlicher Sprache zeigen.
Um die Ausführung von Stable Diffusion auf der Terminalseite zu ermöglichen, entschieden sich die Qualcomm-Ingenieure dafür, mit dem Open-Source-Modell FP32 1-5 von Hugging Face zu beginnen und das Qualcomm AI Model Enhancement Toolkit (AIMET) zu verwenden, um es nach dem Training ohne Einbußen zu quantifizieren das Modell Im Falle der Präzision wird das ursprüngliche FP32-Modell mit höherer Recheneffizienz in das INT8-Format komprimiert.
Durch Qualcomms vereinheitlichte KI-Softwarelösung Qualcomm AI Software Stack kann Qualcomm KI-Modelle quantifizieren und vereinfachen, ohne die Modellgenauigkeit zu verlieren, die KI-Argumentationsleistung erheblich verbessern und den Stromverbrauch senken, wodurch große KI-Modelle anpassungsfähiger für Mobiltelefone und andere Computerumgebungen mit geringem Stromverbrauch werden auf der Terminalseite, was die terminalseitige Erweiterung von KI-Modellen erleichtert.
Durch Software- und Hardware-Full-Stack-Optimierung kann Stable Diffusion schließlich auf der mobilen Snapdragon 8-Plattform der zweiten Generation mit integriertem Hexagon-Prozessor ausgeführt werden, 20 Inferenzschritte in 15 Sekunden ausführen und ein Bild mit 512 × 512 Pixeln erzeugen, sodass The Geschwindigkeit ist bereits vergleichbar mit der Latenz von Cloud Computing.
Mit anderen Worten, das groß angelegte generative KI-Modell in der Cloud hat den ersten Schritt in der Erweiterung von terminalseitigen Anwendungen getan.
Obwohl Sie Stable Diffusion nicht verwenden können, um Blockbuster wie Corridor zu drehen, ist es mehr als genug, damit Ihren eigenen Kopf zu zeichnen und virtuelle Porträts aufzunehmen. Egal, ob Sie ein Selbstporträt im Stil von Monet, Van Gogh oder Akira Toriyama möchten, Sie können direkt Befehle auf Ihrem Telefon eingeben, um mit einem Klick ein einzigartiges KI-Werk zu erstellen.
In Zukunft könnten KI-Modelle mit einer Größenordnung von mehreren zehn Milliarden Parametern auf der Endgeräteseite laufen, und die Intelligenz des KI-Assistenten auf Ihrem Handy wird einen qualitativen Sprung machen. Die Möglichkeiten, die sich durch den Einsatz generativer KI-Modelle auf dem Gerät ergeben, sind unvorstellbar.
Eine natürliche technologische Explosion
Wenn es um KI-Computing geht, denken viele zuerst an einen großen Cloud-Server, denn KI scheint weit weg von unserem Leben zu sein.
Aber tatsächlich ist es jedes Mal, wenn Sie Ihr Telefon entsperren, Ihren Sprachassistenten aufwecken oder sogar den Auslöser drücken, ein intimer Kontakt mit KI-Computing.
Aufgrund der vielen Vorteile der KI-Verarbeitung auf der Endgeräteseite, einschließlich Mobiltelefonen, in Bezug auf Zuverlässigkeit, Verzögerung und Datenschutz, werden immer mehr große KI-Cloud-Modelle auf der Endgeräteseite betrieben.
Heute ist KI-Computing zusammen mit dem Einsatz von Terminals in alle Aspekte unseres Lebens vorgedrungen. Sie können KI leicht in Terminalprodukten wie Smartphones, Tablets, XR-Brillen und sogar Autos finden. Dies ist die Vision des Randes der intelligenten Netzwerkverbindung, die Qualcomm aufgebaut hat, und Qualcomm arbeitet seit mehr als zehn Jahren im Hintergrund.
KI aus der Cloud auf das Endgerät zu bringen, kann die beiden Schmerzpunkte der Nutzer auf einmal lösen: Einerseits können die vom Endgerät verarbeiteten Daten auf dem Endgerät gehalten werden, und die Privatsphäre der personenbezogenen Daten des Nutzers wird angemessen geschützt . Auf der anderen Seite können Endgeräte Berechnungen und Verarbeitungen zeitnah durchführen, was den Benutzern niedrige Latenzzeiten und zuverlässige Verarbeitungsergebnisse liefert.
Qualcomm ist diesmal der erste, der Stable Diffusion auf Android-Telefonen einsetzt, was den Benutzern nicht nur die Möglichkeit der KI-Erstellung jederzeit und überall bietet, sondern auch die zukünftige Bildbearbeitung voller Fantasie macht.
Stable Diffusion-Modelle kodieren eine Fülle von sprachlichem und visuellem Wissen, und das Optimieren des Modells kann spürbare Auswirkungen auf die Bildbearbeitung, das Einfügen von Bildern, die Stilübertragung und die Superauflösung haben.
Stellen Sie sich vor, Sie können in Zukunft ohne Internet Fotos oder Videos im Disney-Stil oder im japanischen Stil aufnehmen, und alle Bildberechnungen werden nur auf dem Mobiltelefon durchgeführt, was Spaß und Spaß macht und gleichzeitig die Privatsphäre und Sicherheit schützt.
In der technischen Planung von Qualcomm ist dies erst der Anfang.
Zuvor hat Qualcomm eine Lösung namens „Qualcomm AI Software Stack“ herausgebracht, die vereinfacht gesagt nur einmal ein Modell entwickeln muss und sich auf allen Endgeräten erweitern lässt.
Die Forschungsdurchbrüche und technischen Optimierungen von Qualcomm zu Stable Diffusion werden zukünftig in den Qualcomm KI-Software-Stack integriert, der künftig nur noch auf dieser Basis erweitert werden muss, um verschiedene Modelle zu erstellen, die für Plattformen wie XR-Brillen und geeignet sind Autos und wird von Qualcomm auch als „Unified Technology Roadmap“ bezeichnet.
Durch einen solchen Produktentwicklungsweg kann Qualcomm führende KI-Technologien wie die Verarbeitung natürlicher Sprache und Gesichtserkennung auf Smartphone-Terminals in XR-Brillen, PCs, das Internet der Dinge, Autos und andere Produkte integrieren und letztendlich neue intelligente Erfahrungen für Benutzer schaffen.
Ein solch hochflexibles und effizientes Entwicklungsmodell ist untrennbar mit der KI-Engine von Qualcomm verbunden.
Die Qualcomm AI-Engine umfasst eine Grafikverarbeitungseinheit, eine CPU und den wichtigsten Hexagon-Prozessor.
Darunter der Hexagon-Prozessor, der sich aus Skalar-, Vektor- und Tensor-Prozessoren zusammensetzt.Die drei Beschleuniger nutzen einen einheitlichen Shared Memory.Qualcomm verdoppelte die Rechenleistung des Tensor-Beschleunigers und verdoppelte die Kapazität des Shared Memory, wodurch die neue Die erste Generation wird Die Qualcomm AI-Engine hat die Energieeffizienz im Vergleich zur vorherigen Generation um 70 % verbessert.
Die KI-Engine von Qualcomm lässt sich flexibel in der Hardware erweitern, ein Hexagon-Prozessor wird in der Regel auf einer mobilen Plattform konfiguriert, für Automotive-, Cloud- und Edge-Computing-Plattformen können mehrere Hexagon-Prozessor-Instanzen zur Steigerung der Rechenleistung eingesetzt werden.
Durch die Kombination der architektonischen Vorteile und der Rechenleistung führender Konkurrenten kann man sagen, dass Qualcomm die Qualcomm-KI-Engine verwendet, um den Kern von Smartphones, Internet der Dinge, XR-Brillen, Automobilen und anderen Unternehmen zu bilden.
AI Computing wird sich laut der Vision von Qualcomm in eine vollständig verteilte Richtung weiterentwickeln, das heißt, KI-Argumentation wird in großer Zahl von der Cloud auf die Endgeräteseite verlagert.
Beispielsweise werden Mobiltelefone den Akzent des Benutzers lernen, um die Stimmgenauigkeit zu verbessern, Autos werden unterschiedliche Straßenbedingungen lernen und die Erkennungsrate von Hindernissen verbessern usw. Dies sind die Anwendungsfälle der KI-Popularisierung in Terminals.
Im Dezember letzten Jahres tat sich Qualcomm mit der neuen Oscar-Schauspielerin Michelle Yeoh zusammen, um eine solche Zukunftsvision der intelligenten Vernetzung aller Dinge zu beschreiben:
Smartphones werden intelligenter, angetrieben von der AI Engine von Qualcomm. Es verfügt über professionelle Imaging-Fähigkeiten, mit denen Sie Szenen auf 8K-Filmebene auf Knopfdruck aufnehmen können; es verfügt auch über Funktionen zur Verarbeitung natürlicher Sprache und kann Ihnen aktiv maßgeschneiderte Dienste wie Echtzeitübersetzungen wie ein Assistent zur Verfügung stellen.
Die KI-Engine von Qualcomm wird es Autos ermöglichen, sich zu zuverlässigen Fahrern zu entwickeln. In Zukunft können Autos Ihre Ankunft erkennen und adaptive Anpassungen gemäß Ihren Gewohnheiten vornehmen; leistungsstarke Rechenleistung bringt reichhaltige Funktionen wie Fahrassistenz, situatives Sicherheitsbewusstsein und Streaming-Unterhaltung und kann auch die vor Ihnen liegende Straße vorhersagen, um das Fahrerlebnis zu verbessern damit Sie Ihr Ziel bequem und sicher erreichen.
Tragbare Geräte wie XR bieten Ihnen ein immersiveres Erlebnis und eine intuitivere Interaktion, sodass Sie sich frei in der virtuellen und realen Welt bewegen können.
Alles in allem befinden wir uns derzeit inmitten unzähliger Möglichkeiten, und die KI-Innovationen um uns herum gestalten die Welt neu und verändern leise die Art und Weise, wie wir arbeiten, leben und kommunizieren.
Derzeit sind Smartphones die beste Anwendungsplattform für KI-Technologie, aber die Popularisierung der KI-Technologie auf Smartphones ist nur der erste Schritt. In Zukunft wird die KI-Technologie allgegenwärtig sein und die Produktivität und Kreativität der Menschen wird weiter freigesetzt. Qualcomm hat lange Zeit darauf vorbereitet worden.
#Willkommen, auf Aifaners offizielles öffentliches WeChat-Konto zu achten: Aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so bald wie möglich präsentiert.
Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo