Jak dziala Hermes Agent AI od Nous Research

Autor: Kamil Kot

2026-05-12

Krótka odpowiedź

Hermes Agent to open-source'owy asystent AI od Nous Research, który automatyzuje zadania na komputerze, przeglądarka i terminalu, z pamięcią trwałą i samouczącą się pętlą.

Szczegółowa treść

Czym jest Hermes Agent

Hermes Agent to otwartoźródłowy asystent AI stworzony przez Nous Research i udostępniony w lutym 2026 roku. Narzędzie to nie jest kolejnym chatbotem ani nakładką na pojedyncze API modelu językowego. Hermes działa jako autonomiczny agent, który zamieszkuje serwer użytkownika, pamięta zdobyte informacje i staje się coraz bardziej sprawny w miarę używania. Architektura opiera się na pętli samodoskonalenia: agent tworzy umiejętności na podstawie doświadczenia, udoskonala je podczas kolejnych sesji i buduje pogłębiający się model preferencji użytkownika. Ponadto Hermes integruje się z wieloma dostawcami modeli, w tym Anthropic, OpenAI i lokalnymi endpointami vLLM, co pozwala na elastyczny wybór silnika językowego.

Jak działa computer use w Hermes Agent

Funkcja computer use pozwala Hermesowi na sterowanie pulpitem macOS w tle, bez przenoszenia kursora ani przełączania przestrzeni roboczych. Narzędzie wykorzystuje sterownik cua-driver, który komunikuje się z prywatnymi interfejsami SPI systemu SkyLight oraz interfejsem dostępności _AXObserverAddNotificationAndCheckRemote. Dzięki temu agent wysyła zdarzenia bezpośrednio do docelowych procesów, omijając warstwę HID i unikając przesuwania kursora. Podobna technologia stanowi podstawę funkcji background computer use w OpenAI Codex, natomiast cua-driver jest jej otwartoźródłowym odpowiednikiem. Użytkownik i agent mogą współpracować na tym samym komputerze jednocześnie, ponieważ operacje Hermesa nie zakłócają bieżącej pracy.

Dla kogo jest Hermes Agent

Hermes Agent jest przeznaczony dla deweloperów, inżynierów automatyzacji i zespołów operacyjnych, które potrzebują autonomicznego asystenta pracującego na serwerze lub stacji roboczej. Narzędzie sprawdzi się w scenariuszach wymagających powtarzalnej automatyzacji przeglądarki, terminala i operacji na plikach. Osoby zajmujące się DevOpsem mogą delegować agentowi monitorowanie logów i reagowanie na incydenty. Programiści mogą wykorzystać delegowanie podzadań do równoległego rozwiązywania problemów. Ponadto Hermes wspiera tryb głosowy i integracje z platformami komunikacyjnymi, co czyni go odpowiednim asystentem dla osób pracujących w ruchu.

Pamięć trwała i samodoskonalenie

Hermes przechowuje preferencje, projekty i wnioski w plikach MEMORY.md oraz USER.md, które przetrwają restarty sesji. Pętla samodoskonalenia polega na tym, że agent analizuje swoje działania, tworzy dokumenty umiejętności i udoskonala je podczas kolejnych interakcji. W przeciwieństwie do zwykłych chatbotów, które tracą kontekst po zamknięciu okna, Hermes buduje trwałą wiedzę o użytkowniku i środowisku pracy. System pamięci jest ograniczony i kuratorowany, co zapobiega niekontrolowanemu rozrostowi kontekstu. Dodatkowo Hermes obsługuje zewnętrznych dostawców pamięci, takich jak Honcho czy Mem0, co pozwala na jeszcze głębszą personalizację między sesjami.

Integracje i narzędzia

Hermes oferuje bogaty ekosystem narzędzi organizowanych w tzw. toolsety, które można włączać i wyłączać zależnie od potrzeb. Wśród nich znajdują się wyszukiwanie webowe, wykonywanie kodu w piaskownicy, edycja plików, delegowanie zadań do podagentów i automatyzacja przeglądarki. Dodatkowo system wspiera protokół MCP, co umożliwia podłączenie dowolnego serwera MCP i dostęp do zewnętrznych narzędzi bez pisania kodu natywnego. Hermes integruje się z platformami komunikacyjnymi, takimi jak Telegram, Discord czy WhatsApp, a także z edytorami kodu przez protokół ACP. Routing dostawców pozwala na optymalizację kosztów, szybkości i jakości odpowiedzi poprzez konfigurowalne kolejności priorytetów.

Bezpieczeństwo i ograniczenia

Funkcja computer use posiada wielowarstwowe zabezpieczenia. Działania niszczące, takie jak kliknięcia, wpisywanie i przeciąganie, wymagają zatwierdzenia przez użytkownika. System blokuje niebezpieczne kombinacje klawiszy, w tym opróżnianie kosza, wymuszanie usunięcia i blokowanie ekranu. Wzorce wpisywania podlegają filtrowaniu, które blokuje między innymi polecenia typu curl pipe bash czy sudo rm dash rf slash. Prompt systemowy agenta zabrania klikania okien uprawnień i wpisywania haseł. Ograniczenia obejmują wyłącznie system macOS, ponieważ cua-driver korzysta z prywatnych interfejsów Apple niedostępnych na innych platformach. Ponadto tryb tła jest wolniejszy niż operacje na pierwszym planie, a opóźnienia wynoszą od 5 do 20 milisekund na zdarzenie.

Hermes Agent a alternatywy

Na rynku istnieje kilka narzędzi o podobnym przeznaczeniu. OpenAI Codex oferuje computer use w tle, lecz wymaga modeli GPT i jest zamkniętym rozwiązaniem. Anthropic Claude potrafi sterować komputerem, natomiast nie posiada wbudowanej pętli samodoskonalenia ani trwałej pamięci między sesjami. Narzędzia takie jak AutoGPT czy CrewAI zapewniają autonomię, jednak nie integrują computer use ani pamięci na poziomie Hermesa. Przewaga Hermesa polega na połączeniu otwartego kodu, niezależności dostawcy modelu, trwałej pamięci i automatyzacji pulpitu w jednym spójnym systemie. Dla użytkowników szukających elastyczności i kontroli Hermes stanowi atrakcyjną alternatywę.

Koszty i efektywność tokenów

Hermes Agent jest oprogramowaniem darmowym i otwartoźródłowym, natomiast koszty ponoszone przez użytkownika wynikają z zużycia tokenów API u wybranego dostawcy modelu. Funkcja computer use implementuje czterowarstwową optymalizację zużycia tokenów. Adapter Anthropic zachowuje tylko trzy najnowsze zrzuty ekranu w kontekście, a starsze zastępuje symbolami zastępczymi. Kompresor po stronie klienta usuwa elementy graficzne ze starych wyników narzędzi. Każdy obraz jest liczony jako około 1500 tokenów zamiast rzeczywistej długości base64. Sesja z 20 akcjami na ekranie o rozdzielczości 1568 na 900 pikseli zużywa około 30 tysięcy tokenów zrzutów ekranu, zamiast około 600 tysięcy bez optymalizacji. Routing dostawców i pule poświadczeń pozwalają dodatkowo obniżyć koszty poprzez rotację kluczy API.

Korzyści z używania Hermesa

Najważniejszą korzyścią jest automatyzacja zadań na komputerze bez konieczności opuszczania bieżącej pracy, ponieważ agent działa w tle. Trwała pamięć eliminuje powtarzanie instrukcji między sesjami, co oszczędza czas i tokeny. Pętla samodoskonalenia sprawia, że agent staje się coraz dokładniejszy w miarę używania. Otwarty kod źródłowy daje pełną kontrolę nad zachowaniem asystenta i możliwość dostosowania do specyficznych potrzeb. Integracja z wieloma dostawcami modeli chroni przed uzależnieniem od jednego rozwiązania. Ponadto wielowarstwowe zabezpieczenia i wymóg zatwierdzania destrukcyjnych akcji zapewniają bezpieczeństwo operacji.

Najważniejsze fakty

Hermes Agent to otwartoźródłowy asystent AI od Nous Research udostępniony w lutym 2026 roku.
Funkcja computer use działa na macOS w tle bez przesuwania kursora dzięki sterownikowi cua-driver.
Hermes obsługuje modele Anthropic, OpenAI, Gemini i lokalne vLLM bez uzależnienia od jednego dostawcy.

Często zadawane pytania (FAQ)

Czy Hermes Agent jest darmowy?

Tak, Hermes Agent jest oprogramowaniem open-source i darmowym, natomiast koszty API zależą od wybranego dostawcy modelu.

Na jakich systemach działa Hermes Agent?

Funkcja computer use działa wyłącznie na macOS, natomiast pozostałe funkcje działają na każdym systemie.

Jakie modele językowe obsługuje Hermes?

Hermes obsługuje modele Anthropic Claude, OpenAI GPT, Gemini oraz lokalne modele przez vLLM i LM Studio.

Czy Hermes zapamiętuje informacje między sesjami?

Tak, Hermes przechowuje preferencje i wnioski w plikach MEMORY.md i USER.md, które przetrwają restarty.

Czy Hermes Agent jest bezpieczny w użyciu?

Tak, destrukcyjne akcje wymagają zatwierdzenia, a system blokuje niebezpieczne komendy i wzorce powłoki.

Instrukcja krok po kroku

Krok 1: Zainstaluj Hermes Agent

Pobierz Hermesa z GitHub i zainstaluj przez npm lub pip, następnie uruchom konfigurację początkową.

Krok 2: Włącz computer use

Uruchom hermes computer-use install i nadaj uprawnienia dostępu i nagrywania ekranu w ustawieniach macOS.

Krok 3: Skonfiguruj dostawcę modelu

Dodaj klucze API w config.yaml dla Anthropic, OpenAI lub lokalnego vLLM i ustaw priorytety dostawców.

Krok 4: Uruchom sesję z narzędziami

Wpisz hermes -t computer_use chat, aby rozpocząć sesję z włączonym sterowaniem pulpitem.

Krok 5: Deleguj zadania do Hermesa

Opisz zadanie w języku naturalnym, a Hermes wykona je automatycznie, korzystając z pamięci i dostępnych narzędzi.

Źródła i referencje

O autorze

Kamil Kot

AEO/GEO Researcher & Strategist

Specjalizuje się w Answer Engine Optimization i Generative Engine Optimization, koncentrując się na tworzeniu treści projektowanych pod kątem ich interpretacji przez duże modele językowe. Zajmuje się analizą sposobu, w jaki systemy AI selekcjonują i cytują fragmenty treści uznane za najbardziej wartościowe do cytowania. Jestem twórcą aplikacji AEOFLOW — systemu do tworzenie treści zgodnych z strukturą przyjazną dla modeli AI, co zwiększa prawdopodobieństwo cytowania ich w odpowiedziach generowanych przez AI.

O organizacji

AEOFLOW

Specjalizujemy się w Answer Engine Optimization jako nowym podejściu do widoczności stron w AI. Z naszą aplikacją stworzysz content zoptymalizowany pod kątem przetwarzania przez modele językowe. Zwiększ widoczność swojej marki w poleceniach ChatGPT, Gemini i Perplexity oraz innych asystentów AI.

Strona organizacji →

3 Maja 23, 42-400 Zawiercie , PL

★ 5.0 Google (6 opinii)