Kann KI Ihre Tastatur und Maus wirklich ersetzen?

„Hey ChatGPT, klicke mit der linken Maustaste auf das Feld zur Passworteingabe im Popup-Fenster, das im unteren linken Quadranten des Bildschirms erscheint, fülle XUS&(#($J aus und drücke die Eingabetaste.“

Spaß, oder? Nein, danke. Ich bewege einfach meine billige Maus und tippe die 12 Zeichen auf meiner unnötig klickenden Tastatur, anstatt das Passwort in meinem Coworking-Space laut auszusprechen.

Es ist schon cool zu sehen, wie ChatGPT deine Sprachbefehle versteht, ein günstiges Ticket für acht Personen für ein Liverpool-Spiel in Anfield bucht und dich zur Kasse bringt. Aber hey, vertraust du ihm das Passwort an? Oder gibst du es nicht einfach über eine physische Tastatur ein?

Stellen Sie sich vor, Sie setzen voll auf KI und stellen dann fest, dass der letzte Schritt, für den Sie WIRKLICH eine Tastatur oder Maus benötigen, nicht möglich ist und Sie nun feststecken. Genau diese Frage stellen sich viele, nachdem sie auffällige KI-Agenten und Automatisierungsvideos von Unternehmen wie Google, OpenAI und Anthropic gesehen haben.

Das ist eine berechtigte Frage

KI war das zentrale Thema bei Googles I/O-Event Anfang des Jahres. Nach der Keynote war ich überzeugt, dass Android-Smartphones nie wieder dieselben sein werden. Und damit auch jede Plattform, auf der Gemini landen wird – von Workspace -Apps wie Gmail bis hin zur Navigation mit Google Maps im Auto.

Die beeindruckendste Demo war Project Mariner, der nächste Forschungsprototyp von Project Astra . Stellen Sie es sich als einen Konversationsassistenten der nächsten Generation vor, mit dem Sie sprechen und echte Dinge erledigen können , ohne jemals auf den Bildschirm tippen oder die Tastatur verwenden zu müssen. Sie können Ihre Anfragen von einem Benutzerhandbuch auf der Website einer Marke auf lehrreiche YouTube-Videos verlagern, ohne den Kontext jemals wiederholen zu müssen.

Es ist fast so, als ob das wahre Konzept des Gedächtnisses für KI angekommen wäre . Sie bucht Tickets im Webbrowser und landet auf der letzten Seite, auf der Sie lediglich bestätigen müssen, ob alle Angaben Ihren Wünschen entsprechen, und dann mit der Zahlung fortfahren. Das lässt die Frage aufkommen, ob Tastatur und Maus für digitale Eingaben tot sind, da Sprachinteraktionen in der KI immer wichtiger werden.

Die Last des Fehlers

So seltsam das auch klingen mag: Ihr Computer verfügt bereits über eine sprachbasierte Steuerung zur Navigation durch das Betriebssystem. Auf Windows-PCs und macOS finden Sie die Sprachsteuerungstools als Teil der Barrierefreiheitsfunktionen. Es gibt einige Tastenkombinationen, um den Vorgang zu beschleunigen, und Sie können auch eigene erstellen.

Mit dem Aufkommen der KI-Modelle der nächsten Generation geht es darum, Tastatur und Maus für alle abzuschaffen und sie nicht nur als unterstützende Technologie zu propagieren.

Stellen Sie sich eine Kombination aus Claude Computer Use und der augengesteuerten Eingabe von Apples Vision Pro-Headset vor. Falls Sie es nicht kennen: Anthropics Computer Use ist ein, nun ja, Computer-Benutzungsagent. Anthropic sagt, es ermöglicht der KI, „Computer wie Menschen zu nutzen – indem sie auf einen Bildschirm schaut, einen Cursor bewegt, Schaltflächen anklickt und Text eingibt“.

Stellen Sie sich nun ein Szenario vor, in dem Ihre Absicht Claude per Sprachbefehl übermittelt wird, von den integrierten Mikrofonen aufgenommen wird und die Aufgabe ausgeführt wird. Für den letzten Schritt, der von Ihnen verlangt wird, füllen Gesten die Lücke. Der Vision Pro hat bewiesen, dass Eye-Tracking-Steuerung möglich ist und mit hoher Präzision funktioniert.

Auch abseits von Headsets funktioniert sprachgesteuerte KI auf einem durchschnittlichen Computer. Hume AI entwickelt in Zusammenarbeit mit Anthropic ein System namens Empathetic Voice Interface 2 (EVI 2), das Sprachbefehle in Computereingaben umwandelt. Es ist fast so, als würde man mit Alexa sprechen, nur dass wir nicht Brokkoli bestellen, sondern der KI-Assistent versteht, was wir sagen, und wandelt es in Tastatur- oder Mauseingaben um.

Das klingt alles großartig, aber lassen Sie uns ein paar realistische Szenarien durchdenken. Sie benötigen eine Tastatur für die Feinabstimmung von Medien. Sie nehmen kleinere Änderungen an einer Programmieroberfläche vor. Sie füllen Zellen in einem Tabellenblatt aus. Stellen Sie sich vor, Sie sagen: „Hey Gemini, trage 4.895 Dollar in Zelle D5 ein und beschrifte sie als Flugreisekosten?“ Ja, ich weiß. Ich würde es auch einfach eintippen.

Die letzte Meile, nicht das Ende

Wenn Sie Demos des KI-Modus in der Suche, des Project Mariner-Agenten und von Gemini Live durchgehen, erhalten Sie einen Einblick in die Sprachverarbeitung. All diese KI-Fortschritte klingen erstaunlich praktisch, bis sie es nicht mehr sind. Wann wird es beispielsweise zu nervig, Dinge zu sagen wie: „Gehen Sie zum Dialogfeld in der oberen linken Ecke und klicken Sie mit der linken Maustaste auf die blaue Schaltfläche mit der Aufschrift ‚ Bestätigen ‘.“

Es ist zu umständlich, selbst wenn alle Schritte davor autonom von einer KI ausgeführt würden.

Und vergessen wir nicht den Elefanten im Raum. KI neigt dazu, verrückt zu spielen . „Im Moment ist sie noch experimentell – manchmal umständlich und fehleranfällig“, warnt Anthropic über Claude Computer Use. Die Situation ist nicht unähnlich dem Operator Agent von OpenAI oder einem ähnlichen Tool gleichen Namens, das derzeit bei Opera, den Machern eines ziemlich coolen Webbrowsers , entwickelt wird.

Das Entfernen von Tastatur und Maus von einem KI-gestützten Computer ist wie das Fahren eines Tesla mit vollautonomem Fahren (FSD) . Allerdings fehlt die Lenkung, die Steuerung erfolgt über Brems- und Gaspedal. Das Auto bringt Sie zwar sicher ans Ziel, aber Sie müssen die Kontrolle übernehmen, wenn etwas Unerwartetes passiert.

Denken Sie im Computerkontext an die Problembehandlung, bei der Sie die Kontrolle haben müssen. Nehmen wir jedoch an, dass ein KI-Modell, das hauptsächlich per Sprache gesteuert wird (und vom Mikrofon Ihres bevorzugten Computers erfasst wird), Sie zum letzten Schritt führt, bei dem Sie den Workflow abschließen müssen, beispielsweise bei einer Zahlung.

Selbst mit Passkeys müssen Sie Ihre Identität zumindest bestätigen, indem Sie das Passwort eingeben, eine Authentifizierungs-App öffnen oder einen Fingerabdrucksensor berühren? Kein Betriebssystem- oder App-Entwickler (insbesondere im Bereich der Identitätsüberprüfung) würde einem KI-Modell die freie Kontrolle über diese wichtige Aufgabe überlassen.

Die Automatisierung mit einem KI-Agenten ist einfach zu riskant, selbst wenn Annehmlichkeiten wie Passkeys ins Spiel kommen. Google behauptet oft, Gemini lerne aus dem Gedächtnis und Ihren eigenen Interaktionen. Aber alles beginnt damit, dass Sie Ihre Computernutzung überwachen lassen, die im Wesentlichen auf Tastatur- und Mauseingaben basiert. Also, wir sind wieder am Anfang.

Virtuell werden? Es ist eine lange Wartezeit

Wenn wir davon sprechen, Computermaus und -tastatur durch KI (oder eine andere Weiterentwicklung) zu ersetzen, meinen wir lediglich deren Substitution durch einen Proxy. Und dann landen wir bei einem vertrauten Ersatz. Es gibt zahlreiche Forschungsarbeiten zu virtuellen Mäusen und Tastaturen, die mindestens ein Jahrzehnt zurückreichen, lange bevor das bahnbrechende „Transformers“-Papier die KI-Branche auf den nächsten Gang brachte.

2013 veröffentlichte DexType eine App, die die winzige Leap Motion-Hardware nutzte, um virtuelles Tippen in der Luft zu ermöglichen. Kein Touchscreen erforderlich, auch kein ausgefallener Laserprojektor wie der Humane AI Pin . Leap Motion wurde 2019 eingestellt, die Idee jedoch nicht. Meta ist wohl das einzige Unternehmen, das über einen realistischen Software- und Hardware-Stack für eine alternative Form der Eingabe und Ausgabe am Computer verfügt, die sogenannte Mensch-Computer-Interaktion (HCI).

Das Unternehmen arbeitet an tragbaren Geräten, die eine völlig neue Form der gestenbasierten Steuerung ermöglichen. Anstatt die räumlichen Bewegungen von Fingern und Gliedmaßen zu verfolgen, nutzt Meta eine Technik namens Elektromyographie (EMG). Sie wandelt im Handgelenk erzeugte elektrische Nervensignale in digitale Eingaben zur Steuerung von Geräten um. Cursor- und Tastatureingaben sind dabei selbstverständlich.

Gleichzeitig behauptet Meta, dass diese Gesten schneller sein werden als ein typischer Tastendruck, da es sich um elektrische Signale handelt, die von der Hand direkt zum Computer übertragen werden, statt um Fingerbewegungen. „So können Sie viel schneller auf die Anweisungen reagieren, die Sie heute schon an Ihr Gerät senden, wenn Sie auf Ihrem Telefon tippen, um einen Song auszuwählen, mit der Maus klicken oder auf einer Tastatur tippen“, sagt Meta.

Weniger Ersatz, mehr Umverpackungen

Metas Ansatz birgt zwei Probleme, egal ob mit oder ohne KI. Das Konzept des Cursors ist weiterhin präsent, ebenso wie die Tastatur, wenn auch digital. Wir wechseln lediglich vom Physischen zum Virtuellen. Der von Meta vorangetriebene Ersatz klingt sehr futuristisch, insbesondere mit Metas multimodalen Llama-KI-Modellen.

Hinzu kommt das existenzielle Dilemma. Diese Wearables befinden sich noch immer in der Forschungsforschung. Und wenn sie auf den Markt kommen, werden sie zumindest in den ersten Jahren nicht billig sein. Selbst einfache Apps von Drittanbietern wie WowMouse sind an Abonnements gebunden und werden durch Betriebssystembeschränkungen behindert.

Ich kann mir nicht vorstellen, meine billige 100-Dollar-Tastatur gegen ein experimentelles Gerät für sprach- oder gestenbasierte Eingabe einzutauschen und mir vorzustellen, dass es die Tastatur- und Mauseingabe in meinem täglichen Arbeitsablauf ersetzt. Vor allem wird es noch eine Weile dauern, bis Entwickler natürliche Spracheingabe in ihre Apps integrieren. Das wird ein langer, langwieriger Prozess sein.

Wie sieht es mit Alternativen aus? Es gibt bereits Apps wie WowMouse , die Ihre Smartwatch in eine Gestenerkennungszentrale für Finger- und Handflächenbewegungen verwandeln. Allerdings dient sie nur als Ersatz für Cursor- und Tippgesten und nicht als vollwertiges Tastaturerlebnis. Allerdings besteht auch hier das Risiko, dass Apps auf Ihre Tastatur zugreifen und die Betriebssysteme protestieren. Erinnern Sie sich an Keylogger?

Letztendlich sind wir an einem Punkt angelangt, an dem die Konversationsfähigkeiten von KI-Modellen und ihre handlungsorientierten Fähigkeiten einen enormen Sprung machen. Allerdings würden sie die Ziellinie immer noch mit einem Mausklick oder wenigen Tastendrücken erreichen, anstatt sie vollständig zu ersetzen. Außerdem sind sie einfach zu umständlich, wenn man eine Tastenkombination oder Maus drücken kann, anstatt eine lange Kette von Sprachbefehlen zu sprechen.

Kurz gesagt: KI wird unsere Abhängigkeit von physischen Eingaben verringern, sie aber nicht ersetzen. Zumindest nicht für die breite Masse.