Die mysteriösen Hardwaredetails von OpenAI wurden enthüllt. Ich habe KI verwendet, um die reale Maschine wiederherzustellen und Apples Designseele einzuspritzen
Vor kurzem ist eine mysteriöse KI-Hardware aufgetaucht, die den Appetit der Internetnutzer geweckt hat. Ihre Verwendungsszenarien und -häufigkeit sind mit denen von iPhone und MacBook vergleichbar, aber sie hat keinen Bildschirm und es handelt sich nicht um eine KI-Brille, einen KI-Kopfhörer, einen KI-PIN oder einen iPod … Der Chef dahinter hat sogar geschworen, „100 Millionen Einheiten in Massenproduktion herzustellen“.
Es ist schwer zu erraten, an welcher Art von „Hardware-Ausrüstung, die neue Wege eröffnet“ , das von OpenAI-CEO Altman und Apples ehemaligem Chief Design Officer Ive mitgegründete io-Unternehmen mithilfe von KI herumgebastelt hat!
Obwohl Ultraman Pläne bekannt gegeben hat, das Produkt Ende nächsten Jahres offiziell auf den Markt zu bringen, haben viele X-Internetnutzer bereits begonnen, über die Verwendung von KI zum „Erraten“ des Bildes nachzudenken. Was ist, wenn es einige „Insiderinformationen“ kennt, richtig?
Die Details des ersten Hardwaregeräts von io sind wie folgt:
- Kein Bildschirm, die Interaktion mit der Außenumgebung erfolgt über eingebaute Kamera und Mikrofon
- Das Design ähnelt dem iPod Shuffle
- Es werden keine KI-Brillen, Smartphones, Kopfhörer und andere gängige KI-Hardware verwendet.
- Größer als AI-Pin
- Mit Neckholder-Design
- Vernetzbar mit Smartphones und PCs
Werfen wir ohne weitere Umschweife einen Blick auf die „io-Produktbilder“, die der KI-Erstellungsblogger Ben Geskin auf X gepostet hat. Fast 9.000 X-Netizens waren gekommen, um sie anzuschauen.

Zusammenfassend deckt das obige Bild nicht nur diese Kernenthüllungen ab, sondern druckt auch das Logo seines Sponsors OpenAI ab und entwirft außerdem einen ungewöhnlichen Formfaktor für KI-Hardware – schließlich ähnelt er ein wenig den gängigeren Rasierern, Massagegeräten und Powerbanks …

Ben Geskin: Im Kommentarbereich dieses Beitrags haben andere X-Netizens abwechselnd andere Arten von „io-Produktbildern“ gepostet.
„GPT-Version der Apple Watch“, generiert von OpenAIs ChatGPT:

Haben KI-Brillen und -Kopfhörer nicht eingebaute Kameras? Muss man daraus schließen, dass auch Smartwatches Kameras haben? Das macht Sinn.
„Tragbare Desktop-KI-Kamera“, generiert von Grok von xAI:

Wie kann Google, das mit Veo 3 das leistungsstärkste Videomodell der Welt besitzt, bei einem solchen Anlass fehlen? Wie also schlägt sich Googles neueste Version des textbasierten Graphenmodells Imagen 4? Schauen wir uns zunächst Gemini an.
iFanr gab den gleichen Satz von „io-Produktbilder vorhersagen“-Aufforderungen an Gemini (ausgestattet mit Imagen 4), ChatGPT (ausgestattet mit GPT-4o) und Grok (ausgestattet mit Grok-3) aus und lieferte dann jeweils die folgenden simulierten Produktbilder.

Den Ergebnissen dieser einzelnen Generierungsrunde zufolge decken alle drei im Wesentlichen die Produktdesignelemente in den durchgesickerten Informationen ab. Unter ihnen entsprechen die Produktbilder von Gemini und ChatGPT eher dem Designaspekt, es um den Hals hängen zu können . Im Vergleich zu den beiden weisen die von Gemini generierten Produktbilder eine etwas bessere visuelle Textur auf.
Laut der offiziellen Erklärung von Google kann Imagen 4 Bilddetails wie Haut, Haare und komplexe Texturen klarer darstellen und ist auch besser darin, KI-Bilder auf „Fotoebene“ und „realistische“ zu erstellen. Gleichzeitig wird behauptet, dass die von Imagen 4 generierten KI-Bilder verschiedene Seitenverhältnisse unterstützen und eine Auflösung von bis zu 2K haben.
Aber um ehrlich zu sein, sieht dieses von Gemini entworfene io-Produkt „ein bisschen wie eine Menschenmenge aus“. Je länger man es betrachtet, desto mehr sieht es aus wie eine Kombination aus Apple Watch + AI-Pin + Bergsteigertaschen-Lanyard …
Darüber hinaus stellte Gemini auch ein schematisches Diagramm zur Verfügung, das die „Fernverbindung zwischen neuen IO-Produkten und Smartphones und PC-Geräten“ darstellen kann.

Darüber hinaus kann Imagen 4 auch die Anforderungen einiger abstrakter KI-Bilderzeugungen erfüllen.

Darüber hinaus verbessert das KI-Modell die Ausgabequalität hinsichtlich Rechtschreibung und Satz weiter und kann die KI-Erstellung von Grußkarten, Postern, Comics und anderen Szenen optimieren .
Der englische Inhalt auf der Außenverpackung der Eierschachtel ist klar, präzise und schön aufgedruckt:

Bei Multi-Frame-Comics ist die Geschichte durchgehend, Bilder und Texte sind aufeinander abgestimmt und es wird auf Weit-, Mittel- und Nahaufnahmen geachtet:

Auch die in letzter Zeit im Internet populär gewordenen Comics im Pixel-Stil lassen sich nachvollziehen:

Imagen 4 ist jetzt in der Gemini-App, Whisk, Vertex AI und den PPT-, Video-, Doc- und anderen Produkten von Workspace verfügbar.
Laut der Google I/O-Konferenz wird es später eine schnellere Version von Imagen 4 geben, deren KI-Bildgenerierungsgeschwindigkeit zehnmal höher sein wird als die der vorherigen Generation Imagen 3. Warten wir es ab.
Ein Fotograf mit einem scharfen Auge für Details
In Bezug auf die Wiederherstellung von Schlüsselwörtern und die Vollständigkeit des Hauptinhalts des Bildes können die gängigen literarischen Bildmodelle auf dem Markt mittlerweile „Lärm und Augen“ erreichen – das Gesamtniveau ist nicht viel anders.
Daher hat Google begonnen, in Bezug auf die Qualität der Bilderzeugung ins Detail zu gehen und behauptet, dass Imagen 4 „zartere Farben“ und „feinere Details“ habe. Das klingt nicht sehr realistisch, also müssen wir weiterhin „das Bild für sich sprechen lassen“.
Basierend auf demselben Satz von Eingabeaufforderungswörtern:
Ein Golden Retriever findet Muscheln am Strand
iFanr verglich die Bildeffekte des Modells Imagen 4, des Vorgängermodells Imagen 3 von Imagen 4 und von Doubao Seedream3.0.

In diesem von Imagen 3 generierten KI-Bild sind der Ausdruck des Golden Retrievers, die Textur der Muscheln, die Spuren der Hundepfoten am Strand sowie der blaue Himmel und die weißen Wolken und die streichelnden Wellen im Hintergrund alle sehr klar und realistisch.
Wenn Sie außerdem genau hinsehen, scheint das Fell des Golden Retrievers vom Meerwasser nass zu sein und liegt in Büscheln.
Tatsächlich war ich ein wenig besorgt, als ich die von Imagen 3 erstellten Meisterwerke zum ersten Mal sah, dass Imagen 4 möglicherweise nicht gewinnen könnte.
Letzterer enttäuschte jedoch nicht und demonstrierte mit echter Kraft, was „glatt und hell“ bedeutet.

Zunächst einmal weisen die von Imagen 4 generierten Bilder aus einer Gesamtperspektive weichere Töne und natürlichere Farben auf, wie etwa der Himmel mit einem himmelblauen Farbverlauf und das Meer mit großen Entfernungen und seichten Tiefen in der Nähe.
Darüber hinaus ist das Fell des Golden Retrievers aus lokaler Sicht sehr detailreich. Es ist nicht nur glänzender und die Licht- und Schattenverteilung gleichmäßiger, sondern verleiht auch dem Fell wieder ein flauschiges Gefühl , sodass es beim Streicheln sehr schön aussieht.
Ein weiteres Detail, das ebenfalls sehr ins Auge fällt, sind die Hundeaugen . Der Golden Retriever auf dem Bild betrachtet die Muschelschalen am Strand, was dem „Fund“ in der Eingabeaufforderung entspricht.
Als Vergleichsreferenz ist die Leistung von Doubao ebenfalls sehr stark. Obwohl die Gesamtfarbe des Bildes unten dunkel ist, ist das Bild auch sehr detailreich, wie zum Beispiel die von der Meeresbrise bewegten Wellen, das von der Meeresbrise verwehte Fell des Hundes ist deutlich sichtbar und an den Pfoten des Golden Retrievers klebt viel Sand, nachdem er die Muschel ausgegraben hat …

Der einzige Nachteil besteht darin, dass diese drei Bilder alle ein ähnliches Problem haben – der Hintergrund und sein Unschärfeeffekt haben immer noch einen starken KI-Eindruck .
Im von Google bereitgestellten Beispiel kann Imagen 4 sogar eine „Detailkontrolle“ bis hin zum „Zeichnen von allem, worauf Sie zeigen“ erreichen. Das kurze, steife Fell des Wasserschweins, die Pinselstriche eines Ölgemäldes, Licht und Schatten von Blasen und die Struktur der Oberfläche eines Kristalls können alle präzise eingefangen werden.

Gleichzeitig können einige der fertigen Produkte von Imagen 4 in Bezug auf Bildtextur und 2K-Klarheit sogar mit professionellen Fotoarbeiten konkurrieren.

Ein Designer mit hoher Ästhetik
Als iFanr Gemini, das mit der neuesten Flash-Version Gemini 2.5 lief, bat , „eine Segeltuchtasche mit elektronischem Bildschirm zu entwerfen, die in den Größen groß, mittel und klein erhältlich ist“, benötigte der multimodale KI-Assistent etwa 10 Sekunden, um das folgende Design zu erstellen.

Die Designzeichnung zeigt intuitiv die beiden Designelemente „Canvas-Tasche“ und „elektronischer Bildschirm“ , und die Wörter „groß“, „mittel“ und „klein“ sind in der linken Spalte markiert. Im rechten Bereich werden einige Referenzobjekte wie „Wasserbecher“ und „Bürste“ verwendet, um den Größenunterschied widerzuspiegeln.
Erwähnenswert ist auch, dass die Gesamtlinien des Außendesigns glatt und nicht steif sind und es auch ein gewisses „handgemaltes“ Gefühl bewahrt.
Anschließend bat iFanr Gemini, die genaue Größe der Canvas-Tasche mit elektronischem Bildschirm anzugeben. Den generierten Ergebnissen zufolge sind die wichtigsten englischen Wörter und römischen Ziffern relativ klar und richtig geschrieben, die Teile mit englischen Einheiten und Satzzeichen sind jedoch verstümmelt.

Wenn Sie mit dem generierten Ergebnis nicht zufrieden sind, klicken Sie in der UI-Chatbox-Oberfläche auf die Option „Aktualisieren“ . Gemini löscht dieses generierte Ergebnis und führt die Ausgabe gemäß der neu eingegebenen Eingabeaufforderung erneut aus.

Die Produktdesignzeichnung ist fertig, es fehlt jedoch noch ein Produktname. Gemini half dabei, einen einfachen und unkomplizierten Namen zu finden: „Canvas Connect“.

Die tatsächlich generierten Ergebnisse der obigen Schritte unterscheiden sich nicht wesentlich von den Eingabeaufforderungswörtern, und es müssen nicht viele Stellen erneut debuggt werden.
Wenn es jedoch darum geht, entsprechende Plakate und Einladungen zu gestalten, besteht bei Zwillingen die Gefahr, dass die Aufforderungen mehrdeutige Bedeutungen enthalten und missverstanden werden.
Gemini hat zunächst das Produktposter auf der linken Seite bereitgestellt, das auf der Produktdesignzeichnung der elektronischen Bildschirm-Canvas-Tasche „Canvas Connect“ basiert. Als Nächstes werden Sie aufgefordert, das Farbschema des Posters zu ändern. Die Hauptfarben sind Braun und Grün, der Rest bleibt unverändert.
Da in der Eingabeaufforderung jedoch nicht angegeben war, dass die Farbe der „Canvas-Tasche“ unverändert bleiben sollte, änderte Gemini die Farbe der Canvas-Tasche, als er die Hintergrundfarbe des Posters änderte, wie im linken Bild gezeigt.

Nach dem Umschreiben dieser Eingabeaufforderung änderte Gemini nur die Farbe des Posters anstelle des Produkts und die Themenfarbe änderte sich von Pink zu Grün. Vom Nachdenken über die Benutzeranforderungen hinter der Eingabeaufforderung über das Verstehen der passenden Anforderungen bis hin zur Generierung des KI-Bildes vergehen etwa 10 Sekunden.
Darüber hinaus gibt es keine offensichtlichen Änderungen an den Bildern auf dem elektronischen Bildschirm, den Bewegungen und Ausdrücken der realen Modelle oder dem Textinhalt. Dieser Fall spiegelt umfassend wider, dass das Textbild des Imagen 4-Modells eine starke Steuerbarkeit und ein schönes Textlayout aufweist und im Allgemeinen wiederverwendbar ist.
Leider sind bei manchen Absätzen oder Textinhalten zur Steuerung der Fehlerbehebung immer noch genaue Eingabeaufforderungen erforderlich.

Zwillinge: Papa, der 10086. Entwurf des Designs wurde hochgeladen. Kann ich jetzt ausstempeln?
Keine Sorge, Imagen 4 bietet noch viele Designfunktionen, die darauf warten, von den Internetnutzern entdeckt zu werden.
iFanr hat es ausprobiert und festgestellt, dass es das reale Modell auf dem Poster direkt durch eine Zeichentrickfigur ersetzen kann, deren Frisur, Outfit und Bewegungen ähnlicher sind. Dabei handelt es sich um das Poster ganz rechts im obigen Bild. Dies ist auch eine Möglichkeit, über das Aufnehmen von Bildern nachzudenken, wenn Sie zu faul sind, sie zu verschönern.
Wenn jedoch kein spezieller Wunsch vorliegt, wird das ursprüngliche Layout des Plakats geändert. Dies erfordert derzeit einen erhöhten Aufwand im Prompt-Bereich.
Oder Sie entscheiden sich für eine elektronische Einladung , die „lebendig und interessant im Stil“, „inhaltlich konnotativ“ und „soziale Medien-tauglich“ ist.

Vergessen Sie nicht, Gemini zu bitten, einen Werbetext mit Emojis und Tag-Einträgen zu erstellen: „Ich lade Sie ein, gemeinsam die Markteinführung des neuen Canvas Connect-Produkts mitzuerleben.“
#TechStyle".

#Willkommen beim offiziellen öffentlichen WeChat-Konto von iFanr: iFanr (WeChat-ID: ifanr), wo Ihnen so bald wie möglich weitere spannende Inhalte präsentiert werden.
