Google Gemini 3.5 Flash lernt Klicken: Update bringt native Computersteuerung für autonome Agenten

Das offizielle Logo von Google Gemini 3.5. Der vierzackige Google-Farbfunke neben dem Schriftzug 'Gemini 3.5' vor einem abstrakt geschwungenen, hellblauen Hintergrund
Quelle: Google
Verpasse keine News, folge mir auf WhatsApp, Mastodon oder Google News

Vergiss mühsames Klicken, Scrollen und Tippen: Google verwandelt sein Sprachmodell Gemini 3.5 Flash in einen autonomen Software-Agenten. Die KI kann ab sofort Benutzeroberflächen bedienen – genau wie ein echter Mensch. Gleichzeitig bringt das neue Chrome 149-Update ein geniales Werkzeug direkt auf deinen Bildschirm.

Es klingt wie Science-Fiction, wird aber gerade Realität: Google hat offiziell die Testphase beendet und verankert die sogenannte „Computer Use“-Funktion direkt in der API seines Hauptmodells.

Das bedeutet: Entwickler können nun Programme erschaffen, bei denen die KI selbstständig Maus und Tastatur übernimmt.

Wie ein unsichtbarer Assistent

Anstatt für jede Schaltfläche starre Codes schreiben zu müssen, nutzt das System einen völlig neuen, visuellen Ansatz. Die KI „sieht“ sich die Desktop-, Mobil- oder Browser-Umgebung über Screenshots an, versteht den Kontext und handelt.

  • Autonome Navigation: Der Agent klickt auf Buttons, füllt Formulare aus und übernimmt nervige Datenerfassungen völlig eigenständig.
  • Ein-Satz-Workflows: Ein einziger Befehl reicht, und die KI rattert komplexe Aufgaben im Hintergrund ab.

Damit zieht Google mit Anthropic gleich, die ein ähnliches Feature bereits für Claude 3.5 Sonnet vorgestellt hatten. Der entscheidende Vorteil von Google? Die rasante Rechengeschwindigkeit des Flash-Modells, die bei der permanenten Screenshot-Analyse im Büroalltag den Unterschied machen dürfte.

Chrome 149 bringt das „Screenshot-Wunder“

Während die autonome PC-Steuerung aktuell Entwickler-Herzen höherschlagen lässt, gibt es auch für uns normale Endanwender handfeste Neuigkeiten. Chrome 149 bringt das neue Feature „Select from screen“.

Versteckt im Anhang-Menü des Browsers, wird es den Alltag massiv erleichtern:

  1. Du ziehst einfach einen Rahmen um ein Bild oder einen Text in deinem aktiven Tab.
  2. Der Browser schnappt sich den Ausschnitt, ohne dass du ihn manuell speichern musst.
  3. Das Bild landet direkt im Eingabefeld für Kontextfragen an die KI. Schneller geht visuelles Prompting nicht!

Sicherheit geht vor: Darf die KI gehackt werden?

Eine KI, die offene Kontrolle über Maus und Tastatur hat, birgt natürlich Risiken. Was passiert, wenn Schadcode auf einer Webseite versucht, den Agenten auszutricksen?

Google hat das Modell einem knallharten „Adversarial Training“ unterzogen, um sogenannte Prompt-Injection-Angriffe abzuwehren. Besonders für Geschäftskunden zieht Google eine doppelte rote Linie: Das System bricht Workflows bei einem erkannten Angriff sofort ab. Zudem erzwingt die Software vor tiefgreifenden Änderungen immer eine menschliche Freigabe. Du behältst also das letzte Wort.


Quelle: Google

Google bevorzugte Quelle Schmidtis Blog Schmidtis Blog zu Deiner bevorzugten Quelle bei Google hinzufügen

Links mit einem * sind Partner-Links. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalte ich eine kleine Provision. Für euch ändert sich am Preis nichts. Danke für eure Unterstützung!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert