Meta stellt Llama 3.1 vor, sein bisher größtes und bestes Open-Source-Modell

Juli 24, 2024 Eskere Guru

Meta

Die Facebook-Muttergesellschaft Meta gab am Dienstag die Veröffentlichung ihres Open-Source-Sprachmodells Llama 3.1 bekannt. Das neue LLM wird in drei Größen erhältlich sein – 8B-, 70B- und 405B-Parameter – wobei letzteres die bisher größte Open-Source-KI ist, die Mark Zuckerberg, CEO von Meta, als „das erste Open-Source-KI-Modell auf Grenzniveau“ beschreibt.

„Letztes Jahr war Llama 2 nur mit einer älteren Generation von Modellen hinter der Grenze vergleichbar“, schrieb Zuckerberg am Dienstag in einem Blogbeitrag . „In diesem Jahr ist Llama 3 mit den fortschrittlichsten Modellen konkurrenzfähig und in einigen Bereichen führend. Wir gehen davon aus, dass die künftigen Llama-Modelle ab dem nächsten Jahr die fortschrittlichsten der Branche sein werden.“

Meta wurde auf 15 Billionen Token mit 16.000 H100-GPUs trainiert und behauptet, dass das 405B-Modell deutlich größer ist als sein Vorgänger Llama 3. Berichten zufolge konkurriert es mit den heutigen Top-Closed-Source-Modellen wie GPT-4o von OpenAI, Gemini 1.5 von Google oder Claude 3.5 von Anthropic in „Allgemeinwissen, Mathematik, Werkzeugnutzung und mehrsprachiger Übersetzung“. Zuckerberg prognostizierte am Dienstag auf Instagram, dass Meta AI bis Ende des Jahres ChatGPT als meistgenutzten KI-Assistenten überholen werde.

Das Unternehmen weist darauf hin, dass alle drei Versionen von Llama 3.1 über eine erweiterte Eingabeaufforderungslänge von 128.000 Token verfügen werden, sodass Benutzer zusätzlichen Kontext und bis zu einem Buch umfassende unterstützende Dokumentation bereitstellen können. Sie werden beim Start auch acht Sprachen unterstützen. Darüber hinaus hat Meta seine Lizenzvereinbarung geändert, um Entwicklern die Nutzung der Llama 3.1-Ausgaben zum Trainieren anderer Modelle zu ermöglichen.

Meta gab außerdem bekannt, dass es mit mehr als einem Dutzend anderer Unternehmen der Branche zusammenarbeitet, um das Llama-Ökosystem weiterzuentwickeln. Amazon, Databricks und Nvidia werden Full-Service-Software-Suiten auf den Markt bringen, um Entwicklern bei der Feinabstimmung ihrer eigenen Modelle auf Basis von Llama zu helfen, während das Startup Groq „Inferenzbereitstellung mit geringer Latenz und niedrigen Kosten“ für die neue Familie von 3.1-Modellen entwickelt hat , schrieb Zuckerberg.

Als Open-Source-Lösung wird Llama 3.1 auf allen wichtigen Cloud-Diensten verfügbar sein, einschließlich AWS, Google Cloud und Azure.