Die 10 Ankündigungen, die 2024 zu einem Meilenstein für die KI machten
Wir haben den zweiten Jahrestag des Beginns des KI-Booms offiziell überschritten und die Dinge haben sich nicht verlangsamt. Ganz im Gegenteil. Die generative KI schreitet in einem Tempo voran, das fast überwältigend wirkt, und breitet sich in unaufhörlichem Tempo auf neue Plattformen, Medien und sogar Geräte aus.
Hier sind die 10 Ankündigungen, die 2024 zu einem monumentalen Jahr in der Welt der KI gemacht haben.
OpenAI veröffentlicht GPT-4o
Als ChatGPT (mit GPT-3.5 ) im November 2022 zum ersten Mal auf den Markt kam, war es im Grunde ein schickes, computergesteuertes Spiel von Mad Libs. Verstehen Sie mich nicht falsch, selbst diese Fähigkeit war damals revolutionär, aber erst mit der Veröffentlichung von GPT-4o im Mai 2024 kamen generative KI-Systeme wirklich zur Geltung.
Aufbauend auf der Fähigkeit seines Vorgängers, sowohl Text als auch Bilder zu analysieren und zu generieren, bietet GPT-4o im Vergleich zu GPT-4 allein ein umfassenderes Kontextverständnis. Dies führt zu einer besseren Leistung in allen Bereichen, von Bildunterschriften und visueller Analyse bis hin zur Erstellung kreativer und analytischer Inhalte wie Grafiken, Diagramme und Bilder.
Der erweiterte Sprachmodus hilft Computern, wie Menschen zu sprechen
Im September zeigte OpenAI erneut, warum es das führende Unternehmen für künstliche Intelligenz ist, indem es seinen Advanced Voice Mode für ChatGPT-Abonnenten freigab. Diese Funktion macht es für Benutzer überflüssig, ihre Fragen in ein Eingabeaufforderungsfenster einzugeben, und ermöglicht stattdessen die Kommunikation mit der KI wie mit einer anderen Person.
Der Advanced Voice Mode nutzt die humanäquivalenten Reaktionszeiten von GPT-4o und hat die Art und Weise, wie Menschen mit maschineller Intelligenz interagieren, grundlegend verändert und Benutzern geholfen, die volle kreative Kapazität der KI freizusetzen.
Generative KI kommt an den Rand
Als ChatGPT im Jahr 2022 auf den Markt kam, war es die einzige KI in der Stadt und an genau einem Ort verfügbar: ChatGPT.com. Oh, was für einen Unterschied machen zwei Jahre. Heutzutage findet man generative KI in allem, von Smartphones und Smart-Home-Geräten bis hin zu autonomen Fahrzeugen und Geräten zur Gesundheitsüberwachung. ChatGPT ist beispielsweise als Desktop-App, API, mobile App und sogar über eine 800er-Nummer verfügbar. Microsoft wiederum hat KI direkt in seine Copilot+-Laptop- Reihe integriert.
Das vielleicht bedeutendste Beispiel ist natürlich Apple Intelligence . Es war vielleicht nicht der erfolgreichste Start (auf viele der Funktionen warten wir noch), aber nichts war so wichtig wie Apple Intelligence, um die Möglichkeiten der generativen KI so zugänglich wie möglich zu machen.
Nun haben weder Copilot+ PCs noch Apple Intelligence das erreicht, was die beteiligten Unternehmen wahrscheinlich wollten – insbesondere für Microsoft –, aber wie wir alle wissen, ist dies erst der Anfang.
Das Wiederaufleben der Atomstromproduktion
Vor diesem Jahr galt die Atomkraft in Amerika als Verlustgeschäft. Gilt als unzuverlässig und unsicher, was zum großen Teil auf den Zwischenfall auf Three Mile Island im Jahr 1979 zurückzuführen ist, bei dem einer der Primärreaktoren der Anlage teilweise schmolz und giftiges, radioaktives Material in die Atmosphäre schleuderte. Angesichts der schnell steigenden Mengen an elektrischer Energie, die moderne große Sprachmodelle benötigen – und der enormen Belastung, die sie für regionale Stromnetze bedeuten – prüfen viele führende KI-Unternehmen jedoch genauer, wie sie ihre Rechenzentren mit der Kraft des Atoms betreiben können.
Amazon beispielsweise kaufte im März ein nuklearbetriebenes KI-Rechenzentrum von Talen und unterzeichnete dann im Oktober eine Vereinbarung zum Erwerb miniaturisierter, eigenständiger Small Modular Reactors (SMRs) von Energy Northwest. Um nicht zu übertreffen, hat Microsoft die Produktionskapazität von Three Mile Island selbst gekauft und arbeitet derzeit daran, Reactor One wieder ans Netz zu bringen und Strom zu erzeugen.
Agenten sind bereit, das nächste große Ding in der generativen KI zu sein
Es stellt sich heraus, dass Sie nur so viel Trainingsdaten, Leistung und Wasser in die Aufgabe stecken können, Ihr großes Sprachmodell zu erweitern, bis Sie auf das Problem sinkender Erträge stoßen. Die KI-Branche hat dies im Jahr 2024 aus erster Hand erlebt und als Reaktion darauf begonnen, sich von den massiven LLMs, die ursprünglich das generative KI-Erlebnis definierten, zugunsten von Agenten abzuwenden; kleinere, reaktionsfähigere Modelle, die darauf ausgelegt sind, bestimmte Aufgaben auszuführen, anstatt zu versuchen, alles zu tun, was ein Benutzer von ihm verlangt.
Anthropic stellte im Oktober seinen Agenten namens Computer Use vor. Microsoft folgte im November mit Copilot Actions , während OpenAI Berichten zufolge seine Agentenfunktion im Januar veröffentlichen wird .
Der Aufstieg von Argumentationsmodellen
Viele der heutigen großen Sprachmodelle sind eher darauf ausgerichtet, Antworten so schnell wie möglich zu generieren, oft auf Kosten der Genauigkeit und Korrektheit. Das o1-Argumentationsmodell von OpenAI, das das Unternehmen im September als Vorschau und im Dezember als voll funktionsfähiges Modell veröffentlichte, verfolgt den gegenteiligen Ansatz: Es opfert die Reaktionsgeschwindigkeit, um die Begründung für eine bestimmte Antwort intern zu überprüfen und so sicherzustellen, dass sie genauso genau und vollständig ist wie möglich.
Während diese Technologie von der Öffentlichkeit noch nicht vollständig angenommen wird (o1 ist derzeit nur für Plus- und Pro-Abonnenten verfügbar), treiben führende KI-Unternehmen die Entwicklung eigener Versionen voran. Google kündigte am 19. Dezember seine Antwort auf o1 mit dem Namen Gemini 2.0 Flash Thinking Experimental an, während OpenAI während seiner Live-Stream-Veranstaltung „12 Days of OpenAI“ am 20. Dezember bekannt gab, dass es bereits am Nachfolger von o1 arbeitet, den es o3 nennt .
KI-gestützte Suche verbreitet sich im Internet
Generative KI ist heutzutage scheinbar allgegenwärtig. Warum sollte sie also nicht in eine der grundlegendsten Funktionen des Internets integriert werden? Google experimentiert seit zwei Jahren mit der Technologie und veröffentlichte zunächst im Mai 2023 das Search Generative Experience, bevor es im vergangenen Mai seine KI- Übersichtsfunktion einführte.AI Overview generiert eine Zusammenfassung der Informationen, die ein Benutzer oben auf seiner Suchergebnisseite anfordert.
Perplexity AI geht mit dieser Technik noch einen Schritt weiter. Seine „Antwort-Engine“ durchsucht das Internet nach den vom Benutzer angeforderten Informationen und fasst diese Daten dann zu einer kohärenten, konversationsorientierten (und zitierten) Antwort zusammen, wodurch das Klicken durch eine Liste von Links praktisch entfällt. OpenAI, immer der Innovator, entwickelte ein nahezu identisches System für seinen Chatbot mit dem Namen ChatGPT Search , das im Oktober erstmals vorgestellt wurde.
Anthropics Artifact löst eine kollaborative Revolution aus
Der Versuch, große Dateien direkt im Chat-Stream zu generieren, zu analysieren und zu bearbeiten – seien es lange kreative Aufsätze oder Computercode-Schnipsel – kann überwältigend sein und Sie dazu zwingen, endlos hin und her zu scrollen, um das gesamte Dokument anzuzeigen.
Die Artefaktfunktion von Anthropic , die im Juni eingeführt wurde, hilft, dieses Problem zu mildern, indem sie Benutzern ein separates Vorschaufenster bietet, in dem sie den von der KI erstellten Text außerhalb der Hauptkonversation anzeigen können. Das Feature erwies sich als so erfolgreich, dass OpenAI schnell mit einer eigenen Version nachzog .
Seine neuesten Modelle und Funktionen haben Anthropic in diesem Jahr zu einem gewaltigen Gegner von OpenAI und Google gemacht, was allein schon bedeutsam erscheint.
Bild- und Videogeneratoren erkennen endlich die Finger
Verwenden Sie die Kamerasteuerung, um jede Aufnahme gezielt zu steuern.
Erfahren Sie in der heutigen Runway Academy, wie das geht. pic.twitter.com/vCGMkkhKds
– Landebahn (@runwayml) 2. November 2024
Früher war es so einfach, ein KI-generiertes Bild oder Video zu erkennen, indem man die Anzahl der Gliedmaßen zählte, die das Subjekt zeigt – offensichtlich wurden mehr als zwei Arme, zwei Beine und zehn Finger erzeugt, wie die Cronenberg-ähnlichen Bilder von Stable Diffusion 3 in zeigten Juni. Doch gegen Ende des Jahres 2024 ist die Unterscheidung zwischen von Menschen und Maschinen erstellten Inhalten erheblich schwieriger geworden, da Bild- und Videogeneratoren sowohl die Qualität als auch die physiologische Genauigkeit ihrer Ausgaben rasch verbessert haben.
KI-Videosysteme wie Kling , Gen 3 Alpha und Movie Gen sind jetzt in der Lage, fotorealistische Clips mit minimaler Verzerrung und feinkörniger Kamerasteuerung zu erzeugen, während Systeme wie Midjourney , Dall-E 3 und Imagen 3 Standbilder mit einem erstellen können erstaunlichen Grad an Realismus (und minimale halluzinierte Artefakte) in unzähligen künstlerischen Stilen.
Oh ja, und Sora von OpenAI feierte im Rahmen seiner Dezember-Ankündigungen endlich sein Debüt. Der Kampf um KI-generierte Videomodelle verschärft sich und im Jahr 2024 werden sie erschreckend beeindruckend.
Elon Musks 10-Milliarden-Dollar-Projekt zum Aufbau des weltweit größten KI-Trainingsclusters
xAI hat dieses Jahr Grok 2.0 auf den Markt gebracht, das neueste Modell, das direkt in Im Jahr 2024 begann Elon Musk mit dem Bau des „ weltgrößten Supercomputers “ etwas außerhalb von Memphis, Tennessee, der am 22. Juli um 4:20 Uhr morgens online ging. Angetrieben von 100.000 Nvidia H100-GPUs hat der Supercluster die Aufgabe, neue Versionen von xAIs zu trainieren Das generative KI-Modell von Grok , von dem Musk behauptet, dass es „die leistungsstärkste KI der Welt“ werden wird.
Es wird erwartet , dass Musk allein im Jahr 2024 rund 10 Milliarden US-Dollar an Kapital- und Inferenzkosten aufwenden wird, aber Berichten zufolge arbeitet er daran, die Anzahl der GPUs, die den Supercomputer antreiben, im neuen Jahr zu verdoppeln.