ChatGPT Operator lokal und kostenlos

Open‑Source‑Browserautomatisierung: Ohne $200 pro Monat - lokal und kostenlos

ChatGPT Operator lokal und kostenlos

In der heutigen digitalen Welt, in der Automatisierung und künstliche Intelligenz immer mehr an Bedeutung gewinnen, suchen viele nach Möglichkeiten, repetitive Aufgaben zu vereinfachen und effizienter zu gestalten. OpenAI hat mit dem Operator ein Werkzeug vorgestellt, das genau dies verspricht: KI-gesteuerte Browser-Automatisierung. Allerdings ist dieser Dienst mit einem Preis von 200 US-Dollar pro Monat verbunden und wirft Fragen hinsichtlich Datensouveränität und Anpassbarkeit auf. Es ist ein wenig, wie der headless Browser von rabbit. Ich möchte hier Browser-Use vorstellen, eine Open Source Alternative zu Operator von OpenAI.

Was ist Browser Use?

Browser Use ist ein Open-Source-Projekt, das es ermöglicht, Webbrowser mithilfe von künstlicher Intelligenz zu steuern. Man stelle sich vor, man könnte einer KI-Anwendung die Aufgabe geben, im eigenen Namen online einzukaufen, Daten in Webformulare einzutragen oder komplexe Rechercheaufgaben durchzuführen – und das alles automatisiert. Genau das ist das Ziel von Browser Use. Während kommerzielle Angebote wie ChatGPT Operator ähnliche Funktionalitäten bieten, setzt Browser Use auf Transparenz, Flexibilität und die Freiheit der Open-Source-Welt.

Das Projekt besteht aus verschiedenen Komponenten, darunter eine Web UI, die eine einfache grafische Oberfläche für die Interaktion mit den KI-Agenten bietet. Es existiert auch eine kommerzielle Version von Browser Use, die von einem Unternehmen mit Unterstützung von Y Combinator entwickelt wird.

Der Fokus dieses Artikels liegt jedoch auf der kostenlosen und selbst hostbaren Open-Source-Variante "Web UI", die es jedem ermöglicht, die Leistungsfähigkeit der Browser-Automatisierung lokal und ohne laufende Kosten zu nutzen.

Vorteile von Open Source und lokalem Hosting

Der entscheidende Vorteil von Browser Use gegenüber kommerziellen Alternativen liegt in seiner Open-Source-Natur und der Möglichkeit des lokalen Hostings. Während ChatGPT Operator eine monatliche Gebühr von 200 US-Dollar erfordert, ist Browser Use kostenlos nutzbar. Dies ist besonders für Einzelpersonen oder Open-Source-Enthusiasten attraktiv, die Kosten sparen und gleichzeitig die volle Kontrolle über ihre Werkzeuge behalten möchten.

Darüber hinaus bietet das lokale Hosting von Browser Use wesentliche Vorteile im Bereich Datenschutz und Datensicherheit. Da die gesamte Verarbeitung lokal auf dem eigenen Rechner oder Server stattfindet, verlassen sensible Daten nie die eigene Infrastruktur. Dies ist ein wichtiger Aspekt, insbesondere bei der Automatisierung von Aufgaben, die den Umgang mit persönlichen oder vertraulichen Informationen beinhalten.

Ein weiterer Pluspunkt der Open-Source-Lösung ist die Flexibilität und Anpassbarkeit. Nutzer haben die Freiheit, den Code einzusehen, zu modifizieren und an ihre spezifischen Bedürfnisse anzupassen. Dies ermöglicht eine tiefgreifende Integration in bestehende Systeme und die Entwicklung maßgeschneiderter Automatisierungslösungen. Im Gegensatz dazu sind kommerzielle Angebote oft "Black Boxes", bei denen die interne Funktionsweise und die Möglichkeiten zur Anpassung begrenzt sind.

Installation von Browser Use Web UI unter Linux ( oder auch WSL)

Die Installation ist auf der Webseite eigentlich gut erklärt und bedarf keiner weiteren Worte:

GitHub - browser-use/web-ui: Run AI Agent in your browser.
Run AI Agent in your browser. Contribute to browser-use/web-ui development by creating an account on GitHub.

Erste Schritte und grundlegende Nutzung

Nach der erfolgreichen Installation und dem Start der Web UI kann man mit der Browser-Automatisierung beginnen.

  1. LLM Konfiguration: Im Reiter "LLM Configuration" kann man den LLM-Provider (z.B. Ollama für lokale Modelle, OpenAI oder Anthropic) und das gewünschte Modell auswählen. Für lokale Modelle mit Ollama muss natürlich sichergestellt sein, dass das gewünschte Modell (z.B. deepseek-r1:14b) heruntergeladen wurde. Dies kann im Terminal mit dem Befehl ollama pull <Modellname> erfolgen.
  2. Agenten ausführen: Im Reiter "Run Agent" findet man Demo-Optionen oder kann eigene Aufgaben definieren. Für einen ersten Test kann die Demo-Option "Demo: Simple Search" ausprobiert werden durch klicken auf "Run Agent". Man sollte die Ausgabe im Terminal und das Verhalten des Browsers im Blick behalten, falls man den Auftrag erteilt hat, Dinge im Internet zu suchen und zu bestellen 😉. Browser Use öffnet ein Browserfenster und führt die definierten Schritte aus.
  3. Aufgaben definieren: Für komplexere Aufgaben kann man im Reiter "Run Agent" detailliertere Anweisungen geben. Beispielsweise: "Gehe auf idealo.de und such den günstigsten AccessPoint. Besuche dann die Webseite mit dem Angebot und lege den gefundenen Accesspoint in meinen Warenkorb". Die Möglichkeiten sind vielfältig und reichen von einfachen Suchanfragen bis hin zu komplexen Interaktionen mit Webanwendungen.

Vergleich mit ChatGPT Operator

Browser Use stellt eine ernstzunehmende Alternative zu ChatGPT Operator dar, insbesondere in Bezug auf Kosten und Kontrolle. Während ChatGPT Operator mit 200 US-Dollar pro Monat zu Buche schlägt, ist Browser Use kostenlos nutzbar. Für technisch versierte Nutzer, die bereit sind, sich mit der Installation und Konfiguration auseinanderzusetzen, bietet Browser Use eine leistungsstarke und flexible Plattform für Browser-Automatisierung.

Ein weiterer wesentlicher Unterschied liegt in der Art der Browser-Nutzung. ChatGPT Operator verwendet einen isolierten, vom Nutzer unabhängigen Browser. Browser Use hingegen kann mit dem Standardbrowser des Nutzers interagieren. Dies ermöglicht die Nutzung bestehender Browser-Sessions, gespeicherter Passwörter und Cookies, was die Automatisierung in vielen Fällen vereinfacht und effizienter gestaltet. Allerdings birgt dies auch potenzielle Sicherheitsrisiken, da die KI-Anwendung Zugriff auf persönliche Browserdaten erhält. Hier ist Vorsicht und ein verantwortungsvoller Umgang geboten.

Ein weiterer Punkt, in dem Browser Use potenziell die Nase vorn hat, ist die Fähigkeit, CAPTCHAs zu bewältigen.

Während ChatGPT Operator bekanntermaßen Schwierigkeiten mit CAPTCHAs hat, zeigen erste Experimente mit Browser Use und bestimmten Konfigurationen (z.B. mit spezialisierten LLMs), dass eine CAPTCHA-Lösung zumindest in bestimmten Fällen möglich ist.

Fazit

Browser Use demonstriert eindrucksvoll, dass leistungsstarke Browser-Automatisierung nicht teuer sein muss und nicht in den Händen großer Konzerne liegen sollte. Als Open-Source-Projekt bietet es eine kostenlose, flexible und datenschutzfreundliche Alternative zu kommerziellen Angeboten wie ChatGPT Operator.