Der Vater von Nvidias umstrittener KI-Gaming-Technologie möchte die Sache klarstellen

Ein von KI generierter Charakter spricht in einer Convai-Tech-Demo mit einem anderen.
Convai

Anfang dieses Monats wurde ich Zeuge eines digitalen Wunders. In einer Pressekonferenz vor der CES stellte Nvidia eine Demo seines Ace-Microservice vor, einer KI-Suite, die in der Lage ist, vollständig vertonte KI-Charaktere zu generieren. Ich sah voller Ehrfurcht zu, wie ein Demoist über ein Mikrofon mit einem NPC im Spiel sprach, nur um den digitalen Charakter in Echtzeit antworten zu lassen. Es war eine wahre Science-Fiction-Leistung, aber es gab eine Frage: Wie hat es das gelernt?

Nvidia gab eine zweideutige Antwort und behauptete, es gebe „ keine einfache Antwort “. Die Aussage löste einen Feuersturm aus, da Nutzer in den sozialen Medien vom Schlimmsten ausgingen. Es gab Spekulationen darüber, dass Ace auf Inhalte geschult wurde, an denen Nvidia nicht die Rechte hatte. Nvidia behauptete später, dass es nur Daten verwende, für deren Verwendung es eine Freigabe erteilt habe , aber die Spannungen waren immer noch hoch. Ein Berg ethischer und künstlerischer Bedenken löste bei den Spielern Skepsis aus.

Unter den Zuschauern, die das Geschehen von der Seitenlinie aus verfolgten, war auch Purnendu Mukherjee. Der Softwareentwickler war kein weiteres Gesicht in der Menge; Er schuf die KI-Technologie im Zentrum einer Debatte, die er nicht begonnen hatte. Mukherjee ist der Gründer von Convai , dem generativen KI-Unternehmen, das Nvidia Ace antreibt. Anstatt sich zurückzulehnen und zuzusehen, wie jemand anderes sein Werkzeug erklärt, war er bestrebt, den Sachverhalt klarzustellen.

Im Gespräch mit Digital Trends setzte sich Mukherjee zusammen, um in einem ausführlichen Interview über KI-Tools wie seines einige ethische Bedenken zu beantworten. Er äußerte seine Gedanken zu allem, von der Angst vor Arbeitslosigkeit bis hin zur Sorge, dass KI die Menschheit aus der Kunst verdrängen würde. Für Mukherjee ist das weit von der Wahrheit entfernt. Der Gründer von Convai sieht eine optimistische Zukunft, in der Künstler Hand in Hand mit KI zusammenarbeiten, um ihre kreativen Visionen vollständig zu verwirklichen. Aber wenn es um das heiße Thema Datennutzung geht, könnte seine Erklärung mehr Fragen als Antworten aufwerfen.

Können KI und Künstler koexistieren?

Als Kind war Mukherjee immer neugierig auf den menschlichen Geist und seine Funktionsweise. In der High School begann er, etwas über KI zu lernen, wurde jedoch von den strengeren regelbasierten Systemen der damaligen Zeit abgeschreckt. Sein Interesse wurde erst viel später im Jahr 2015 geweckt, als er Deep Learning in einem Labor in Indien studierte. Nachdem er in die USA gezogen war, ein Studium absolviert und eine Zeit lang bei Nvidia gearbeitet hatte, trennte sich Mukherjee schließlich selbstständig und gründete im April 2022 Convai. Er gründete das Unternehmen zehn Monate lang aus eigener Tasche.

Mukherjee ist im Herzen ein Gamer. Er wuchs mit Wettkampftiteln wie Counter-Strike in einem örtlichen Internetcafé auf. Dort beginnt er sich vorzustellen, wie KI Spiele verbessern könnte, und scherzt über die hirntoten Bots des Schützen. Dieser Gedanke hat sich mittlerweile zu einer erfolgreichen technischen Innovation entwickelt, die mehrere KI-Prozesse nutzt, um stimmgewaltige NPCs zu erzeugen, die in Echtzeit auf Eingabeaufforderungen von Spielern reagieren können. Sein Ziel? Um Spiele spannender zu machen. Convai-Gründer Purnendu Mukherjee steht vor einer Skyline.

„Nehmen Sie Baldur's Gate 3 oder The Witcher “, sagt Mukherjee zu Digital Trends. „Sie haben so unglaubliche Geschichten. Solche liebevoll und leidenschaftlich geschriebenen Geschichten. Aber Sie als Spieler können nicht in die Tiefe vordringen, da es nur ein paar Erzählstränge gibt, die Sie von den NPCs aus erkunden können. Angesichts der heute verfügbaren Technologie könnten diese NPCs ein Eigenleben führen und mit Ihnen interagieren, während sie im Charakter bleiben und Ihnen mehr Informationen geben, wenn Sie tiefer in die Gedanken des Erzähldesigners eindringen möchten.“

Diese Aussage leitet ein langes Interview ein, in dem Mukherjee eine Reihe miteinander verbundener Bedenken hinsichtlich der KI widerlegt. Als ich fragte, ob Baldur's Gate 3 das beliebte Spiel wäre, das es ohne sein absichtliches Schreiben ist, gingen wir in ein Kaninchenloch und enthüllten die Beziehung zwischen Maschinen und Künstlern. Offensichtlich ist er so vorbereitet zu dem Gespräch gekommen, als hätte er eine Woche lang skeptische Social-Media-Beiträge studiert. Er betont schnell, dass KI kein Ersatz für Künstler sei; es braucht sie.

„Ich sehe nur höhere Anforderungen an Narrative Designer, nicht weniger“, erklärt er und skizziert, wie KI mehr Arbeitsplätze für Künstler schaffen könnte. „Die Autoren schreiben nicht nur, um Hintergrundgeschichten und Erzählungen zu schaffen. Sie schreiben auch zu Testzwecken. Die Art und Weise, wie Sie sicher sind, einen generativen KI-basierten NPC in Ihr Multi-Millionen-Dollar-Spiel zu integrieren, besteht darin, dass Sie einen robusten Testsatz benötigen. Sie benötigen Hunderte, wenn nicht Tausende von Hin- und Her-Interaktionen, die idealerweise von demselben Erzählautor stammen … Wenn Sie unsere Plattform ausprobieren, müssen Sie eine Hintergrundgeschichte schreiben und eine Reihe schriftlicher Dokumente vom Autor selbst hochladen schreibt den Geist des Charakters. Es erfordert effektiv zehnmal mehr Schreiben als heute.“

Dieser Gedankengang wird zum roten Faden in unserem Gespräch. Mukherjee betont oft, dass er davon überzeugt ist, dass generative KI-Tools genauso viele, wenn nicht sogar mehr Künstler erfordern werden, um die Technologie richtig zu trainieren. An einer Stelle postuliert er, dass großartige KI Spiele besser machen wird, was wiederum zu mehr Verkäufen führen wird, und überzeugt Studios davon, Synchronsprechern mehr zu bezahlen, da ihre Arbeit, diese Tools zu schulen, für die Entwicklung hochwertiger Spiele mit Next-Gen so entscheidend ist. Level-Engagement. Das ist eine optimistische Vision, wenn man bedenkt, dass sich die Videospielbranche derzeit mitten in einer Massenentlassungswelle befindet, die Tausende arbeitslos gemacht hat.

Mukherjee ist dieser Realität gegenüber nicht blind und bestreitet auch nicht, dass ein Anstieg der generativen KI Auswirkungen auf die Arbeitsplätze haben könnte. Er beschreibt dies eher als einen natürlichen Wandel, der sich nicht so sehr von allem unterscheidet, was wir bei früheren technischen Fortschritten wie diesem gesehen haben. Die Menschen müssen sich anpassen und lernen, mit KI zu arbeiten, um ihre Arbeit zu schaffen.

Ich vertiefe mich weiter. Er diskutiert die Auswirkungen von KI im Hinblick darauf, wie sie sich auf Arbeitsplätze auswirken wird, aber was ist mit Künstlern, die Spiele entwickeln, weil sie bewusste, handgefertigte Inhalte erstellen möchten? Sicherlich ist es nicht so einfach, Künstlern zu sagen, sie sollen KI-Ingenieure werden. Mukherjee glaubt nicht, dass das die Lösung ist; Vielmehr ist es seiner Meinung nach eher eine Frage des Verständnisses, wo sich Kunst und Technologie überschneiden.

„KI ist dasselbe wie Adobe Photoshop oder Unreal Engine“, sagt Mukherjee. „Ja, Spiele wurden gemacht, bevor es Unreal Engine gab. Die Leute haben es immer noch von Hand gefertigt. Aber können Sie sich nicht mit der besten Kunst in Unreal Engine ausdrücken? Du kannst. Nehmen Sie eine beliebige 3D-Videobearbeitungssoftware. Sie haben immer noch diese Kunst, weil Sie immer noch die gleiche akribische Detailarbeit leisten müssen. Bei KI-generierten Dingen trifft das alles zu. Der Aspekt des Handwerks ist immer noch vorhanden. Man hat einfach ein Werkzeug, das mehr Ausdruckskraft hat, aber man ist immer noch der Schöpfer, Meister und Beherrscher davon.“

Die Datenleiter

Es ist klar, dass Mukherjee KI als hilfreiches Werkzeug sieht, das Künstler unterstützen kann, anstatt sie zu ersetzen. Während unseres Gesprächs kommt er auf einige wichtige Punkte zurück, in denen es darum geht, wie KI den Menschen braucht, und geht dabei ausführlich auf allgemeine Bedenken ein. Schwierig wird es jedoch, wenn das eine Wort auftaucht, vor dem sich KI-Unternehmen zu fürchten scheinen: Daten. Während Schöpfer behaupten, dass KI-Modelle, die auf ihre Kreationen trainiert wurden, Diebstahl seien, behaupten einige wichtige KI-Entwickler, dass sie Modelle nicht ohne massive Dateneingabe, einschließlich urheberrechtlich geschützter Werke, trainieren könnten. Mukherjee vertritt die Idee, dass Menschen bezahlt werden sollten, wenn ihre Daten zum Trainieren von KI-Modellen verwendet werden.

„Ich denke, es muss eine Möglichkeit geben, Menschen, die einen wesentlichen Beitrag zu den Datensätzen leisten, gut zu entlohnen“, sagt er. „Ob es sich um die New York Times oder Reddit handelt, die Quelle muss lizenziert sein. Es ist kein einfacher Weg, aber meiner Meinung nach wird es so weit kommen. Und was auch immer am korrektesten ist, insbesondere wenn wir es auf kommerzieller Ebene nutzen, werden wir uns natürlich für dieses entscheiden.“

Ein Diagramm zur KI-Technologie von Convai erklärt, wie NPCs mit der Umgebung interagieren.
Convai

Auf Convais eigenen Datensatz beharrt Mukherjee darauf, dass das Unternehmen nur Daten verwendet, an denen es die Rechte hat. Er weist darauf hin, dass es nicht einmal möglich sei, die Art von Daten, die das Tool benötigt, wahllos zu extrahieren, wenn man bedenke, dass es Neuland beschreite. Es ist eine logische Erklärung, die er jedoch selbst schnell entlarvt.

„Wir verwenden Basismodelle, entweder von OpenAI oder lizenzierte Open-Source-Modelle“, sagt er. „Sie müssen kommerziell lizenziert sein und aus ethisch vertretbaren Quellen stammen. Bei diesen Dingen sind wir sehr vorsichtig. Und wenn es um Text-to-Speech geht, sind wir sehr nah dran, sehr eng mit Synchronsprechern zusammenzuarbeiten. In unserem Fall sind mehr Synchronsprecher erforderlich, nicht weniger!“

Der Name OpenAI sorgt für Aufsehen. Das Unternehmen steckt derzeit in rechtlichen Schwierigkeiten, da die New York Times es wegen der „rechtswidrigen Verwendung“ seiner Schriften zum Trainieren von Bots wie ChatGPT verklagt hat. OpenAI bestreitet den Vorwurf nicht. Als Antwort auf den Kommunikations- und Digitalauswahlausschuss des britischen Oberhauses schreibt das Unternehmen: „Es wäre unmöglich, die heute führenden KI-Modelle zu trainieren, ohne urheberrechtlich geschützte Materialien zu verwenden.“ Angesichts der Tatsache, dass Convais Modell auf der Arbeit von OpenAI aufbaut, frage ich Mukherjee: Wie Kann er sicherstellen, dass keine urheberrechtlich geschützten Materialien verwendet wurden?

Mukherjee macht einen subtilen Unterschied: Convai verwendet nicht die Daten von OpenAI, sondern nur die darauf trainierten Modelle. Es ist eine Art sprachliches Schlupfloch. Da Convai die Daten nicht direkt nutzt, scheint Mukherjee davon überzeugt zu sein, dass das Unternehmen bei Urheberrechtsstreitigkeiten immer noch unparteiisch ist. Wenn man auf Klarheit darüber drängt, wie sich die Verwendung der Modelle von der Verwendung der darin enthaltenen Daten unterscheidet, auf die das Unternehmen möglicherweise keine Rechte hat, wird die Situation unklarer.

„Es ist nicht klar, welches Modell welche Daten hat“, stellt er klar. „Wir wissen es nicht, weil uns das nicht klar ist. Nehmen wir an, OpenAI bietet fünf Modelle, Nvidia vier Modelle und Meta drei Modelle. Wir verwenden das, was für unseren Anwendungsfall am besten geeignet ist. Wir wissen nicht vollständig, welches Modell welchen Datensatz verwendet.“

Mukherjees Argument scheint zu sein, dass Convai nicht dafür verantwortlich ist, wie andere Modelle mit Daten umgehen. Darüber hat er keine Kontrolle. Er kann lediglich sicherstellen, dass die eigene Datennutzung ethisch vertretbar ist, und hoffen, dass die Modelle, auf denen er aufbaut, dies auch tun. Aber seine frühere Behauptung, dass Convai „natürlich“ auf dem ethischsten KI-Modell aufbauen würde, ist nicht wirklich haltbar, wenn man bedenkt, dass er derzeit eines verwendet, das im Mittelpunkt einer Urheberrechtsklage steht. Eine andere Zeile liest sich in diesem neuen Kontext anders: „Wir stehen kurz davor, sicherzustellen, dass wir sehr eng mit Synchronsprechern zusammenarbeiten.“ Extrem nah dran bedeutet, dass Convai noch nicht wirklich da ist.

Komplizierte Gespräche wie diese könnten erklären, warum Nvidia es überhaupt abgelehnt hat, meine Frage zur Datennutzung zu beantworten. Die Wahrheit ist, dass alle diese Tools aufeinander aufbauen. Ace verwendet Convai, das OpenAI verwendet. Es gibt eine Datenleiter; Je weiter man klettert, desto schwieriger ist es zu erkennen, wer unten ist. Nvidias Behauptung, dass es „keine einfache Antwort“ auf die Datennutzung gibt, ist richtig, aber es gibt eine ehrlichere Antwort: Es weiß es einfach nicht. Nvidia wird wahrscheinlich keine Fragen vor Gericht beantworten müssen, aber wenn OpenAI seinen Kampf verliert, könnte die gesamte Rangliste einstürzen.

Eine Veränderung auf Zivilisationsebene

Als wir dieses Chaos entwirrten, brachte ich die Idee einer Regulierung zur Sprache. Sollte die Regierung eingreifen, um der Technologie gewisse Grenzen zu setzen? Mukherjee ist der Meinung, dass einiges nötig ist, obwohl er glaubt, dass es sorgfältig durchgeführt werden muss. Er befürchtet, dass zu viel Regulierung die Innovation ersticken könnte. Und am Ende des Tages ist er fest davon überzeugt, dass etwaige Risiken, die KI mit sich bringt, die potenzielle Leistungsfähigkeit der Technologie nicht zunichte machen.

„Was ist KI heute? KI ist heute wie ein Auto“, sagt er. „Sind Autos nicht gefährlich? Natürlich sind sie! Mit einem Auto kann man einen Menschen völlig umbringen, aber wir fahren ständig Autos. Es ist so riskant, aber insgesamt ist es insgesamt positiv. Ich sehe KI als dasselbe. Wir brauchen Regelungen darüber, wie man Auto fahren darf und was nicht. Wenn Sie sie illegal fahren, werden Sie bestraft. Mit der KI wird es irgendwann genauso sein.“

Es ist ein etwas düsterer Vergleich, aber während unseres gesamten Gesprächs ist Mukherjee in Bezug auf KI ausschließlich optimistisch. Er ist fest davon überzeugt, dass sich dies auf lange Sicht positiv auf die Gesellschaft auswirken wird, solange Unternehmen daran denken, die Menschlichkeit in den Mittelpunkt zu stellen. Er hofft auf eine Welt, in der Tools wie Nvidia Ace Künstler unterstützen und ihnen nicht Jobs wegnehmen. Er sieht keine düstere Zukunft vor uns, in der jeder seinen Arbeitsplatz durch Maschinen verliert, aber er akzeptiert, dass dies die Menschen dazu zwingen wird, sich anzupassen.

„Es wird Veränderungen geben, und Veränderungen schaden den Menschen“, sagt Mukherjee. „Es ist die gleiche Art von Veränderung, wann immer ein neuer technologischer Wandel stattfindet. Das ist eine Veränderung auf Zivilisationsebene. Es wird eine Reihe neuer Arbeitsplätze entstehen und eine Reihe älterer, traditionellerer Arbeitsplätze, die weniger gefragt sein werden. Nehmen wir an, als wir von Pferdekarren auf Autos umstiegen. Leute, die Pferdegeschäfte hatten, mussten definitiv etwas anderes finden … Generative KI wird eine ganze Reihe neuer Möglichkeiten schaffen. Es wird für die Menschheit als Ganzes deutlich positive Auswirkungen haben, erfordert aber eine gewisse Arbeitsplatzverlagerung.“

Am Ende des Interviews dankte Mukherjee mir dafür, dass ich mit ihm gesprochen und ihm die Chance gegeben habe, den Sachverhalt klarzustellen. Er weist darauf hin, dass in der Presse, die über die Ankündigung von Nvidia Ace berichtete, nicht einmal erwähnt wurde, dass Convai die Technologie dahinter entwickelt hat. Er klingt ein wenig frustriert darüber, dass sein Unternehmen nicht die Anerkennung erhält, die es verdient. Ich weise auf die Ironie dieses Gefühls hin und stelle fest, dass Künstler sich derzeit genau so fühlen, wenn sie zusehen, wie KI-Tools ihre Arbeit abkratzen und sie als ihre eigene wieder ausspucken.

„Das ist ein toller Punkt!“ sagt er mit einem großen Lachen und vielleicht einer neuen Klarheit.