Berichten zufolge wurde Nvidia (erneut) beim Scraping von KI-Daten von Netflix und YouTube erwischt.

August 6, 2024 Eskere Guru

Nvidia-CEO Jensen vor einem Hintergrund. — Nvidia

Laut einem vernichtenden Bericht von 404 Media , gestützt auf interne Slack-Chats, E-Mails und Dokumente, die das Unternehmen erhalten hat, hat sich Nvidia „an Trainingsdaten pro Tag ein visuelles Erlebnis im Wert eines Menschenlebens“ verschafft, sagte Ming-Yu Liu, Vizepräsident von Forschung bei Nvidia und Leiter eines Cosmos-Projekts, zugegeben in einer E-Mail vom Mai.

Unbenannte ehemalige Nvidia-Mitarbeiter teilten 404 mit, dass sie gebeten worden seien, Videoinhalte von Netflix, YouTube und anderen Online-Quellen zu extrahieren, um Trainingsdaten für die Verwendung mit den verschiedenen KI-Produkten des Unternehmens zu erhalten. Dazu gehören Nvidias Omniverse 3D-Weltgenerator, selbstfahrende Autosysteme und „Digital Human“.

Als diese Mitarbeiter nach der Rechtmäßigkeit des intern Cosmos genannten Projekts fragten, versicherte ihnen das Management, dass sie von den höchsten Ebenen des Unternehmens die Genehmigung zur Nutzung dieser Inhalte erhalten hätten.

Ziel des Projekts war es, ein Basismodell ähnlich Gemini 1.5 , GPT-4 oder Llama 3.1 zu erstellen, „das die Simulation von Lichttransport, Physik und Intelligenz an einem Ort bündelt, um verschiedene nachgelagerte Anwendungen zu erschließen, die für Nvidia von entscheidender Bedeutung sind.“

Zu diesem Zweck nutzte das Projekt Cosmos angeblich einen Open-Source-Video-Downloader und nutzte maschinelles Lernen für den IP-Hop, um so den Blockadeversuchen von YouTube zu entgehen. Den von 404 eingesehenen E-Mails zufolge diskutierten Projektmanager über die Verwendung von bis zu 30 virtuellen Maschinen, die auf Amazon Web Services laufen, um täglich Videos in voller Länge und Cliplänge aus 80 Jahren herunterzuladen.

Nvidia behauptet seinerseits kein Fehlverhalten. „Wir respektieren die Rechte aller Inhaltsersteller und sind zuversichtlich, dass unsere Modelle und unsere Forschungsbemühungen in vollem Einklang mit dem Wortlaut und dem Geist des Urheberrechts stehen“, sagte ein Nvidia-Sprecher per E-Mail gegenüber 404 Media. „Das Urheberrecht schützt bestimmte Ausdrucksformen, nicht jedoch Fakten, Ideen, Daten oder Informationen. Es steht jedem frei, Fakten, Ideen, Daten oder Informationen aus einer anderen Quelle zu lernen und diese für seine eigenen Äußerungen zu nutzen. Fair Use schützt auch die Fähigkeit, ein Werk für einen transformativen Zweck zu nutzen, beispielsweise für die Modellschulung.“

Dies ist bei weitem nicht das erste Mal, dass Nvidia (ganz zu schweigen von der überwiegenden Mehrheit der übrigen KI-Branche) bei seinen KI-Trainingsbemühungen den Ansatz „zuerst kratzen und vielleicht später um Verzeihung bitten“ verfolgt. Im Juli wurde Nvidia neben Anthropic und Salesforce in einem weiteren Bericht über illegales Scraping urheberrechtlich geschützter Videos genannt .

Auf der CES 2024 löste das Unternehmen mit seinen zweideutigen Antworten, wie seine neue generative KI für Gaming-Engine trainiert wurde, einen Internet-Feuersturm aus . Als Reaktion darauf bekräftigte Nvidia, dass seine Tools „ kommerziell sicher “ seien.