Szczegółowa treść
Czym jest Hermes Agent
Hermes Agent to otwartoźródłowy asystent AI stworzony przez Nous Research i udostępniony w lutym 2026 roku. Narzędzie to nie jest kolejnym chatbotem ani nakładką na pojedyncze API modelu językowego. Hermes działa jako autonomiczny agent, który zamieszkuje serwer użytkownika, pamięta zdobyte informacje i staje się coraz bardziej sprawny w miarę używania. Architektura opiera się na pętli samodoskonalenia: agent tworzy umiejętności na podstawie doświadczenia, udoskonala je podczas kolejnych sesji i buduje pogłębiający się model preferencji użytkownika. Ponadto Hermes integruje się z wieloma dostawcami modeli, w tym Anthropic, OpenAI i lokalnymi endpointami vLLM, co pozwala na elastyczny wybór silnika językowego.
Jak działa computer use w Hermes Agent
Funkcja computer use pozwala Hermesowi na sterowanie pulpitem macOS w tle, bez przenoszenia kursora ani przełączania przestrzeni roboczych. Narzędzie wykorzystuje sterownik cua-driver, który komunikuje się z prywatnymi interfejsami SPI systemu SkyLight oraz interfejsem dostępności _AXObserverAddNotificationAndCheckRemote. Dzięki temu agent wysyła zdarzenia bezpośrednio do docelowych procesów, omijając warstwę HID i unikając przesuwania kursora. Podobna technologia stanowi podstawę funkcji background computer use w OpenAI Codex, natomiast cua-driver jest jej otwartoźródłowym odpowiednikiem. Użytkownik i agent mogą współpracować na tym samym komputerze jednocześnie, ponieważ operacje Hermesa nie zakłócają bieżącej pracy.
Dla kogo jest Hermes Agent
Hermes Agent jest przeznaczony dla deweloperów, inżynierów automatyzacji i zespołów operacyjnych, które potrzebują autonomicznego asystenta pracującego na serwerze lub stacji roboczej. Narzędzie sprawdzi się w scenariuszach wymagających powtarzalnej automatyzacji przeglądarki, terminala i operacji na plikach. Osoby zajmujące się DevOpsem mogą delegować agentowi monitorowanie logów i reagowanie na incydenty. Programiści mogą wykorzystać delegowanie podzadań do równoległego rozwiązywania problemów. Ponadto Hermes wspiera tryb głosowy i integracje z platformami komunikacyjnymi, co czyni go odpowiednim asystentem dla osób pracujących w ruchu.
Pamięć trwała i samodoskonalenie
Hermes przechowuje preferencje, projekty i wnioski w plikach MEMORY.md oraz USER.md, które przetrwają restarty sesji. Pętla samodoskonalenia polega na tym, że agent analizuje swoje działania, tworzy dokumenty umiejętności i udoskonala je podczas kolejnych interakcji. W przeciwieństwie do zwykłych chatbotów, które tracą kontekst po zamknięciu okna, Hermes buduje trwałą wiedzę o użytkowniku i środowisku pracy. System pamięci jest ograniczony i kuratorowany, co zapobiega niekontrolowanemu rozrostowi kontekstu. Dodatkowo Hermes obsługuje zewnętrznych dostawców pamięci, takich jak Honcho czy Mem0, co pozwala na jeszcze głębszą personalizację między sesjami.
Integracje i narzędzia
Hermes oferuje bogaty ekosystem narzędzi organizowanych w tzw. toolsety, które można włączać i wyłączać zależnie od potrzeb. Wśród nich znajdują się wyszukiwanie webowe, wykonywanie kodu w piaskownicy, edycja plików, delegowanie zadań do podagentów i automatyzacja przeglądarki. Dodatkowo system wspiera protokół MCP, co umożliwia podłączenie dowolnego serwera MCP i dostęp do zewnętrznych narzędzi bez pisania kodu natywnego. Hermes integruje się z platformami komunikacyjnymi, takimi jak Telegram, Discord czy WhatsApp, a także z edytorami kodu przez protokół ACP. Routing dostawców pozwala na optymalizację kosztów, szybkości i jakości odpowiedzi poprzez konfigurowalne kolejności priorytetów.
Bezpieczeństwo i ograniczenia
Funkcja computer use posiada wielowarstwowe zabezpieczenia. Działania niszczące, takie jak kliknięcia, wpisywanie i przeciąganie, wymagają zatwierdzenia przez użytkownika. System blokuje niebezpieczne kombinacje klawiszy, w tym opróżnianie kosza, wymuszanie usunięcia i blokowanie ekranu. Wzorce wpisywania podlegają filtrowaniu, które blokuje między innymi polecenia typu curl pipe bash czy sudo rm dash rf slash. Prompt systemowy agenta zabrania klikania okien uprawnień i wpisywania haseł. Ograniczenia obejmują wyłącznie system macOS, ponieważ cua-driver korzysta z prywatnych interfejsów Apple niedostępnych na innych platformach. Ponadto tryb tła jest wolniejszy niż operacje na pierwszym planie, a opóźnienia wynoszą od 5 do 20 milisekund na zdarzenie.
Hermes Agent a alternatywy
Na rynku istnieje kilka narzędzi o podobnym przeznaczeniu. OpenAI Codex oferuje computer use w tle, lecz wymaga modeli GPT i jest zamkniętym rozwiązaniem. Anthropic Claude potrafi sterować komputerem, natomiast nie posiada wbudowanej pętli samodoskonalenia ani trwałej pamięci między sesjami. Narzędzia takie jak AutoGPT czy CrewAI zapewniają autonomię, jednak nie integrują computer use ani pamięci na poziomie Hermesa. Przewaga Hermesa polega na połączeniu otwartego kodu, niezależności dostawcy modelu, trwałej pamięci i automatyzacji pulpitu w jednym spójnym systemie. Dla użytkowników szukających elastyczności i kontroli Hermes stanowi atrakcyjną alternatywę.
Koszty i efektywność tokenów
Hermes Agent jest oprogramowaniem darmowym i otwartoźródłowym, natomiast koszty ponoszone przez użytkownika wynikają z zużycia tokenów API u wybranego dostawcy modelu. Funkcja computer use implementuje czterowarstwową optymalizację zużycia tokenów. Adapter Anthropic zachowuje tylko trzy najnowsze zrzuty ekranu w kontekście, a starsze zastępuje symbolami zastępczymi. Kompresor po stronie klienta usuwa elementy graficzne ze starych wyników narzędzi. Każdy obraz jest liczony jako około 1500 tokenów zamiast rzeczywistej długości base64. Sesja z 20 akcjami na ekranie o rozdzielczości 1568 na 900 pikseli zużywa około 30 tysięcy tokenów zrzutów ekranu, zamiast około 600 tysięcy bez optymalizacji. Routing dostawców i pule poświadczeń pozwalają dodatkowo obniżyć koszty poprzez rotację kluczy API.
Korzyści z używania Hermesa
Najważniejszą korzyścią jest automatyzacja zadań na komputerze bez konieczności opuszczania bieżącej pracy, ponieważ agent działa w tle. Trwała pamięć eliminuje powtarzanie instrukcji między sesjami, co oszczędza czas i tokeny. Pętla samodoskonalenia sprawia, że agent staje się coraz dokładniejszy w miarę używania. Otwarty kod źródłowy daje pełną kontrolę nad zachowaniem asystenta i możliwość dostosowania do specyficznych potrzeb. Integracja z wieloma dostawcami modeli chroni przed uzależnieniem od jednego rozwiązania. Ponadto wielowarstwowe zabezpieczenia i wymóg zatwierdzania destrukcyjnych akcji zapewniają bezpieczeństwo operacji.