Webbrowser treten in eine neue Ära ein, in der KI-Fähigkeiten Erweiterungen ersetzen
„Der Browser ist wichtiger als Chat. Er ist ein greifbareres Produkt und die einzige Möglichkeit, Agenten zu entwickeln. Nur so lassen sich durchgängige Workflows erstellen“, so Aravind Srinivas, CEO von Perplexity, in einem aktuellen Interview. Der Mitbegründer von Perplexity sprach über die Zukunft von Webbrowsern, KI-Agenten und Automatisierungen in Webbrowsern.
Srinivas zeigte sich optimistisch, was die Aussichten angeht, auch weil sein Unternehmen bereits einen neuen, viel beachteten Browser namens Comet testet. Der Browser befindet sich derzeit in einer Beta-Phase, die nur auf Einladung zugänglich ist, und verfügt über einen Agenten, der komplexe und zeitaufwändige Aufgaben für Sie erledigen kann.
Stellen Sie es sich wie ein KI-Tool wie ChatGPT oder Gemini vor, das jedoch ausschließlich in Ihrem Browser läuft. Der Agent-in-Browser-Ansatz, so Srinivas, sei vertrauter und flexibler. Sie müssen sich nicht mit den üblichen lokalen Berechtigungen und anwendungsübergreifenden Workflow-Einschränkungen herumschlagen. Außerdem funktionieren Browser wie gewohnt mit Produkten wie Chrome oder Safari.
Die zugrundeliegenden Strömungen unterscheiden sich jedoch grundlegend, und die größte Veränderung könnte der Verzicht auf Browsererweiterungen zugunsten von KI-Fähigkeiten und benutzergenerierten Agenten sein. Interessanterweise wurden die grundlegenden Tools bereits vor über einem Jahr entwickelt, doch erst mit der Einführung von KI-basierten Browsern wie Dia und Comet erfahren wir mehr darüber.
KI-Kompetenzen sind die neuen Arbeitsweltmeister
Das ganze Gerede über KI-Agenten und -Fähigkeiten klingt nach einem Haufen Fachjargon, deshalb möchte ich es Ihnen kurz erklären. Im Dia-Browser habe ich kürzlich eine Fähigkeit namens „Expand“ erstellt. Wie habe ich das gemacht, obwohl ich keine einzige Zeile Code geschrieben habe? Ich habe es einfach mit den folgenden Worten beschrieben:
„Wenn ich diese Fähigkeit nutze und einen Ausschnitt einfüge, führe ich eine Deep-Web-Suche durch und rufe den gesamten Verlauf in Form eines Artikels in aktueller Reihenfolge auf. Beziehen Sie Informationen nur aus zuverlässigen Nachrichtenquellen.“
Ich verdiene meinen Lebensunterhalt mit dem Lesen und Schreiben von Artikeln und stoße dabei oft auf Textstellen und Ereignisse in Artikeln, mit denen ich nicht vertraut bin. In solchen Fällen muss ich lediglich den entsprechenden Text auswählen (oder ihn in die Chat-Seitenleiste kopieren und einfügen) und mit dem Befehl „/“ die Funktion „Erweitern“ aufrufen.
Wie oben beschrieben, durchsucht der KI-Agent im Dia-Browser die Erwähnungen meines Ziels in den wichtigsten Nachrichtenagenturen und erstellt einen kurzen Bericht darüber in chronologischer Reihenfolge. Das spart mir viel wertvolle Zeit, die ich sonst mit wilden Google-Suchversuchen verschwenden würde.
Aber was noch wichtiger ist: Ich muss nicht einmal einen weiteren Tab öffnen und kann im selben Chatfenster im aktiven Lese-Tab weitere Fragen stellen. Das ist schnell und bequem. Ich kenne keine Erweiterung, die genau das kann, was diese „Erweitern“-Funktion für mich leistet.
Das ist auch nicht möglich. Ich habe es mit einem bestimmten Zweck und einer bestimmten Absicht erstellt. Und ich kann so viele erstellen, wie ich möchte, oder es weiter an meinen Arbeitsablauf anpassen. Ich habe ein weiteres Tool namens „Recherche“ erstellt, das auf ein Werk (oder eine Phrase) verweist und eine Webrecherche durchführt, indem es ausschließlich von Experten begutachtete wissenschaftliche Arbeiten betrachtet.
Die Dia-Community spart sogar Geld, indem sie Skills entwickelt, die direkt vor dem Bezahlen nach Gutscheincodes für Produkte suchen. Für meinen Amazon-Einkauf habe ich einen Skill erstellt, der Bewertungen, Bewertungen und Produktmerkmale verschiedener Amazon-Tabs kombiniert, eine Vergleichstabelle erstellt und mir hilft, die beste Wahl zu treffen. Und das alles mit der Eingabe eines einzigen Wortes!
Ein anderes Programm sucht schnell nach Grammatikfehlern und überprüft die Klarheit des Stilleitfadens in meinen E-Mails. Ein weiteres Programm erstellt auf Grundlage des von mir vorbereiteten Lernmaterials ein Quiz-basiertes Lesematerial für Kinder, die ich an einer gemeinnützigen Einrichtung in der Nähe unterrichte.
Die Schüler lieben den spielerischen und unterhaltsamen Ton der Multiple-Choice-Fragen, die ihr Wissen zum aktuellen Geschehen testen. Es gibt sogar eine offizielle Dia-Galerie mit von Dia-Nutzern erstellten Fähigkeiten und ein Crowdsourcing-Web-Dashboard mit weiteren Informationen.
Aber hier ist der Hauptgrund, warum ich Browserkenntnisse wichtiger finde als Erweiterungen: Jeder kann sie erstellen, indem er einfach beschreibt, was er möchte. Für Erweiterungen braucht man Programmierkenntnisse und grundlegende Kenntnisse der Funktionsweise des Webs und seiner Browserarchitektur.
Sicherheit ist ein weiterer Grund, warum ich mehr Vertrauen in Browserfunktionen als in Erweiterungen setze. Browsererweiterungen werden seit langem von Kriminellen als Waffe eingesetzt, um Malware zu verbreiten. Ein durchschnittlicher Benutzer kann die Funktionsweise einer Erweiterung weder nachvollziehen noch verstehen und erkennt den Fehler erst, wenn der Schaden bereits angerichtet ist.
Die Situation mit KI-Fähigkeiten in Browsern ist so transparent wie nur möglich. Die genaue Funktionsweise einer Fähigkeit wird detailliert, in natürlicher Sprache und ohne versteckte Einschränkungen beschrieben. Sie müssen sie nur gründlich lesen oder kopieren und mit zusätzlichen Anpassungen Ihre eigene erstellen. Dieser Ansatz ist flexibel, deutlich sicherer und gibt den Nutzern die volle Kontrolle.
Browser-Agenten sind gekommen, um zu bleiben
Als Nächstes gibt es Browser-Agenten. Der Opera-Browser hat bereits einen implementiert und bietet bereits eine erweiterte Version namens Operator an. Darüber hinaus gibt es Tools wie ChatGPT Agent und den Comet-Browser von Perplexity . Stellen Sie sich das wie Siri vor, nur fürs Surfen im Internet.
Agenten eignen sich besser für komplexe, zeitaufwändige Aufgaben. Und sie arbeiten am besten, wenn sie Zugriff auf die Dienste haben, die Sie täglich nutzen, wie E-Mail und Kalender. So habe ich es beispielsweise gestern Abend im Comet-Browser von Perplexity gemacht:
„Schauen Sie in meinem Posteingang nach und informieren Sie mich über alle Interviewanfragen von Wissenschaftlern oder Führungskräften, die ich durchführen wollte. Konzentrieren Sie sich auf Gespräche, bei denen ich die Möglichkeit eines virtuellen Interviews anstelle eines persönlichen Treffens erwähnt habe.“
Ohne einen weiteren Tab zu öffnen, durchsuchte der integrierte Assistent meinen Gmail-Posteingang, suchte die relevanten E-Mails heraus und stellte mir anschließend eine Liste dieser Interaktionen in einer übersichtlichen Ansicht bereit. Für zusätzlichen Komfort enthielt er sogar Gmail-Links mit nur einem Klick, sodass ich die E-Mail-Kette direkt öffnen konnte, ohne sie manuell durchsuchen zu müssen.
Es eignet sich hervorragend für viele andere Zwecke. Während eines Twitter-AMAs habe ich es beispielsweise einfach gebeten, die Antworten des Sprechers auszuwählen und als Stichpunkte aufzulisten. Das hat mir viel Zeit beim Öffnen und Schließen von X-Konversationsketten gespart.
Für Reiseplanung, Shopping oder sogar Videokonsum funktioniert der Assistent im Comet-Browser einwandfrei. Einziger Wermutstropfen: Wenn Sie ihn für private Aufgaben benötigen, müssen Sie den Zugriff auf Konnektoren aktivieren. Beispielsweise müssen Sie den Zugriff für Gmail, Kalender und Drive aktivieren.
Ich habe es auch für meinen WhatsApp-Account gemacht, und es funktionierte im Comet-Browser einwandfrei. Nicht jeder wird sich damit wohlfühlen, und Vorsicht ist durchaus angebracht. Für solche Szenarien bieten Google und OpenAI ähnliche Agentenfunktionen für Gemini bzw. ChatGPT an.
Es gibt kein Zurück
So wie Sie in Dia Skills erstellen, indem Sie Ihre Anforderungen einfach eingeben oder beschreiben, können Sie mit Gemini und ChatGPT auch benutzerdefinierte Agenten für bestimmte Aufgaben erstellen. Google nennt sie Gems, OpenAI GPTs. Und ja, Sie können sie genau wie Skills teilen. Die Nutzung ist kostenlos, für die Erstellung benötigen Sie jedoch ein Abonnement für 20 US-Dollar pro Monat.
Ich habe zahlreiche Gems und benutzerdefinierte GPTs erstellt, um meine alltäglichen Aufgaben zu beschleunigen. Für persönliche Social-Media-Beiträge habe ich ein Gem erstellt, das meine Artikel in kleinere Teile zerlegt, die dann als Kette auf X gepostet werden. Ebenso habe ich benutzerdefinierte Agenten für die Bearbeitung meiner E-Mails erstellt.
Bei einem der Gems muss ich lediglich „Ja“ oder „Nein“ eingeben. Anschließend wird eine höfliche Antwort verfasst und der gesamte Kontext der E-Mail erfasst. Mithilfe von Konnektoren können Sie die Gems mit beliebig vielen Diensten verknüpfen.
Das Beste an diesen Funktionen ist, dass Sie sie problemlos sowohl in Desktop-Browsern als auch in mobilen Apps nutzen können. Erweiterungen erfordern die Verwendung eines Desktop-Browsers. Einige mobile Browser unterstützen zwar Erweiterungen, diese sind jedoch selten.
Darüber hinaus bieten sie nicht die gleiche Flexibilität und Sicherheit wie benutzerdefinierte Browser-Skills oder von Benutzern erstellte Agenten. ChatGPT Agent und Googles Project Mariner sind eine neue Generation von KI-Assistenten, die maßgeschneidert für webbasierte Aufgaben sind, genau wie der im Comet-Browser von Perplexity integrierte Assistent.
Im Gegensatz zu Erweiterungen können sie mehrstufige Workflows verarbeiten, und Sie können jederzeit die Kontrolle übernehmen. Darüber hinaus können Sie die Funktionsweise Ihrer Webbrowser-Automatisierung anpassen und die KI-Fähigkeiten genau auf Ihre Anforderungen zuschneiden, was mit Erweiterungen nicht möglich ist.
Natürlich sind sie nicht perfekt. Gleichzeitig können Sie die Aufgaben übernehmen und erledigen, wenn sie nicht dazu in der Lage sind, denn kein KI-Agent ist narrensicher, insbesondere in einer Zeit, in der die Denkmodelle noch weit von der Perfektion entfernt sind“, gibt der CEO von Perplexity zu.
Der Wandel ist jedoch deutlich spürbar. Browser-Erweiterungen werden nicht über Nacht verschwinden, sondern von Nutzern erstellte Browser-Agenten und KI-Fähigkeiten werden die Oberhand gewinnen. Es ist nur eine Frage der Zeit, bis die Hürden (sprich: die Abonnementgebühren) fallen!
