2026 자가 개선 AI 에이전트 5종 비교: OpenClaw vs Hermes vs QwenPaw vs Claude Code vs Codex

OpenClaw — 통합과 생태계의 왕

개요

OpenClaw는 *"자기 기기에서 돌리는 개인 AI 비서"*를 표방한다. 커뮤니티 주도("clawtributors")로 372k 스타, 49,000+ 커밋. 게이트웨이가 제품의 중심이 아니라 control plane일 뿐이라는 로컬 우선 철학이 핵심이다.

아키텍처

Local Gateway — 세션·채널·도구·이벤트를 한 곳에서 조율하는 control plane
Multi-agent routing — 채널/계정별로 격리된 워크스페이스를 가진 별도 에이전트로 라우팅
Workspace — ~/.openclaw/workspace에 AGENTS.md, SOUL.md, TOOLS.md 같은 프롬프트 파일을 주입
런타임은 Node 24 / 22.16+, pnpm 워크스페이스 구조

메모리와 스킬

메모리는 파일 단위다. 사용자가 직접 열어 읽고 편집할 수 있는 투명함이 장점. 단점은 네이티브 학습 레이어가 없다는 것 — 매 작업을 새 문제로 푼다. 경험이 구조적으로 축적되지 않는다.

스킬은 ClawHub 레지스트리로 관리한다. bundled / managed / workspace 3종으로 나뉘고, 커뮤니티 스킬이 13,700+개로 5종 중 압도적으로 크다.

통합

OpenClaw의 진짜 무기는 통합 폭이다. WhatsApp·Telegram·Slack·Discord·Google Chat·Signal·iMessage·IRC·Microsoft Teams·Matrix·Feishu·LINE·WeChat·QQ 등 20개 이상 메신저를 단일 인박스로 묶는다. Live Canvas(에이전트가 제어하는 시각 워크스페이스), macOS/iOS 음성 wake도 차별점이다.

보안 이슈

빠른 성장의 비용

2026년 3월 나흘 동안 CVE 9건이 공개됐고 그중 하나는 9.9점이었다. Koi Security가 ClawHub 스킬 2,857개를 감사한 결과 341개가 악성으로 분류됐다. "AI/바이브 코딩 PR 환영"이라는 빠른 반복 문화의 그림자다.

Hermes Agent — 자가 개선 루프의 왕

개요

Nous Research가 만든 "스스로 성장하는 AI 에이전트". v0.10.0(4월 16일) 기준 번들 스킬 118개, 3계층 메모리, 6종 메시징 통합. OpenClaw의 후신 격으로, hermes claw migrate 명령으로 OpenClaw 설정·메모리·스킬·API 키를 그대로 가져온다.

코드 구조

저장소는 기능별 모듈로 깔끔하게 갈린다.

run_agent.py      # AIAgent — 대화 엔진 (provider 선택, 프롬프트 구성,
                  #            도구 실행, 재시도, fallback, 압축, 영속화)
cli.py            # 터미널 인터페이스
agent/            # 프롬프트 구성, 컨텍스트 압축, provider 통합
  prompt_builder.py    # personality + memory + skills + context 조립
  prompt_caching.py    # Anthropic 캐시 breakpoint 적용
tools/            # 70+ 도구, ~28 toolset
  registry.py          # import 시점 self-register, 스키마 수집·디스패치
  delegate_tool.py     # subagent 위임
  environments/        # 7개 터미널 백엔드
gateway/          # 20개 메시징 플랫폼 어댑터
hermes_cli/       # CLI 서브커맨드, 설정, 셋업 마법사
cron/             # 스케줄 태스크 실행

AIAgent 루프는 입력 → 시스템 프롬프트 조립 → API 호출 → 도구 실행 → 응답이고, API는 chat completions / codex responses / anthropic messages 세 모드를 모두 지원한다. provider resolution은 (provider, model) 튜플을 18개+ provider의 자격증명·엔드포인트로 매핑한다 — 모델 락인이 코드 레벨에서 제거돼 있다.

메모리 3계층

정체성 스냅샷 — 사용자와 에이전트가 누구인지의 영속 노트
세션 검색 — 모든 과거 세션을 SQLite FTS5 풀텍스트 검색. 세션은 parent/child lineage를 추적(압축 시점마다 분기)하고 플랫폼별로 격리된다
유저 모델링 — Honcho 기반 dialectic user modeling

자가 개선 루프

Hermes의 핵심이자 가장 논쟁적인 부분이다. 에이전트는 ~15 tool call마다, 그리고 복잡한 작업 후에 멈춰서 무엇이 통했는지 반성하고, 그 패턴을 Markdown 스킬 파일로 쓴 뒤, 다음 사용 때 다듬는다. 스킬은 *"맥락이 이렇게 보이면, 이 접근이 통한다"*는 구조화된 템플릿이다. agentskills.io 오픈 표준과 호환된다.

여기에 checkpoint/rollback이 붙어 파일 수정 작업의 안전망이 된다 — OpenClaw에 없는 기능이다.

QwenPaw — 멀티에이전트와 보안

개요

AgentScope/Qwen 진영이 내놓은 OpenClaw·Hermes 대항마. 컨셉은 거의 동일하다 — 로컬/클라우드 배포, 멀티채널, "쓸수록 똑똑해지는" memory-evolving 에이전트.

코드 구조

src/qwenpaw/      # 코어 에이전트 로직 (Python 74%)
console/          # 웹 프론트엔드 (TypeScript 20%, 127.0.0.1:8088)
plugins/          # 확장 플러그인 시스템
deploy/           # 배포 설정

스킬은 auto-load 방식 플러그인 아키텍처고, "skills determine what QwenPaw can do"라는 설계다.

차별점

QwenPaw의 무기는 두 가지다.

멀티에이전트가 1급 기능 — 역할이 다른 독립 에이전트를 여러 개 만들고, collaboration skill을 켜면 에이전트 간 통신으로 복잡한 작업을 분담한다
보안 레이어가 가장 명시적 — tool guard, 파일 접근 제어, 스킬 보안 스캐닝이 기본 탑재. OpenClaw의 ClawHub 악성 스킬 사태를 보면 의미 있는 설계 선택이다

중화권 메신저(DingTalk·Feishu·WeChat) 통합이 강하고, 서구권 생태계·문서는 상대적으로 얇다.

Claude Code — 코드베이스의 시니어 동료

개요

Anthropic의 코딩 에이전트. 터미널 CLI + 데스크톱 + 웹 + IDE 확장. Claude 계열(Opus/Sonnet/Haiku) 고정.

아키텍처 특징

애플리케이션 레이어 안전 모델 — 26개 프로그래머블 hook 이벤트로 세밀한 제어
확장 수단이 두텁다 — MCP, 스킬, 훅, 슬래시 커맨드, 서브에이전트
Agent Teams(2026년 2월 리서치 프리뷰) — 서브에이전트마다 전용 컨텍스트 윈도우를 받고, 의존성 추적이 되는 공유 태스크 리스트를 쓰며, 서로 메시지를 주고받는다. 각 에이전트는 git worktree에서 격리 작업
메모리는 CLAUDE.md + 파일 기반, 세션 단위

성능

블라인드 품질 테스트에서 Codex 대비 67% 승률, SWE-bench Verified 80.9%. 깊은 추론이 강점이지만 토큰을 많이 쓴다.

Codex — 클라우드 위임형 코딩 작업자

개요

OpenAI의 코딩 에이전트. 터미널 CLI(오픈소스, Rust 기반) + 클라우드(Codex) + IDE. GPT-5 계열 고정.

아키텍처 특징

OS 커널 레이어 안전 모델 — 거친 입자(coarse-grained) 제어. 기본값이 클라우드 샌드박스 격리 실행
처리량과 토큰 효율 최적화 — 동일 작업에 Claude Code 대비 약 1/4 토큰
Terminal-Bench 2.0에서 77.3%로 선두

포지션

Claude Code가 "코드베이스에서 같이 일하는 동료"라면 Codex는 "위임하면 클라우드에서 알아서 굴러가는 작업자"다. 커뮤니티 컨센서스는 "둘 다 써라" — 아키텍처·복잡한 기능·프론트엔드는 Claude Code, 자율 태스크·DevOps·비용 민감 작업은 Codex.

코드 레벨에서 본 핵심 차이

세 상주형 에이전트의 설계 철학은 코드 구조에서 그대로 드러난다.

	OpenClaw	Hermes Agent	QwenPaw
주 언어	TypeScript (pnpm 워크스페이스)	Python 88% + TS 8.8%	Python 74% + TS 20%
중심 추상	Gateway control plane	`AIAgent` 대화 루프	`src/qwenpaw` 코어 + plugins
도구 등록	워크스페이스 프롬프트 주입	`registry.py` import-time self-register	auto-load 플러그인
모델 결합	설정 파일에서 지정	`(provider, model)` 튜플 매핑, 18+ provider	모델 무관
메모리 저장	파일 단위(직접 편집 가능)	SQLite FTS5 + lineage 추적	로컬, evolving
스킬 학습	없음(수동 ClawHub)	import 시점 등록 + 런타임 자동 생성	플러그인, evolving
서브에이전트	채널별 격리 워크스페이스	`delegate_tool.py`	collaboration skill

요약하면 — OpenClaw는 게이트웨이 중심, Hermes는 에이전트 루프 중심, QwenPaw는 플러그인 중심이다. Hermes만 "경험을 코드 산출물(스킬 파일)로 굳히는" 경로가 아키텍처에 박혀 있다.

논문으로 보는 자가 개선의 이론적 배경

Hermes·QwenPaw가 하는 일은 2025~2026년 학계의 핵심 주제와 정확히 겹친다. 세 편의 서베이가 이 흐름을 정리한다.

Memory for Autonomous LLM Agents (

arXiv:2603.07670)
에이전트 메모리를 5계열로 분류한다 — context 압축, retrieval store, reflective self-improvement, hierarchical virtual context, policy-learned management. Hermes의 3계층 메모리는 retrieval store(FTS5) + reflective self-improvement(스킬 루프)의 결합으로 매핑된다.

Adaptation of Agentic AI (

arXiv:2512.16301)
pretraining 이후 에이전트를 개선하는 모든 방법(SFT·선호 최적화·RLVR·메모리·스킬)을 "adaptation" 하나로 묶는다. 에이전트 자체를 개선하는 경로를 A1(tool-execution-signaled)과 A2(agent-output-signaled)로 나누는데, Hermes의 closed learning loop가 바로 A2에 해당한다.

From Storage to Experience (

arXiv:2605.06716)
"explicit experience" 개념을 제시한다 — interaction trajectory 클러스터에서 사람이 읽고 편집 가능한, 일반화 가능한 경험을 추출해 해석 가능한 자기 진화를 달성. Hermes가 Markdown 스킬 파일을 쓰는 방식이 정확히 이 패턴이다.

논문이 공통으로 지적하는 미해결 문제도 있다 — 자기 평가의 신뢰성. 에이전트가 자기 출력을 정확히 평가하지 못하면, "성공"으로 판단한 작업에서 추출한 스킬에 오류가 그대로 인코딩된다. 이건 다음 절의 커뮤니티 반응과 정확히 연결된다.

커뮤니티 반응

r/openclaw 1,300개 댓글 분석 기준, 사용자 기반은 갈라져 있다.

비중	입장
~35%	OpenClaw 잔류 — 통합 폭과 스킬 생태계가 압도적
~30%	Hermes로 이주 — 셋업이 쉽고 메모리 기본값이 낫다
~20%	둘 다 병용
~15%	Hermes 불신 — astroturfing(가짜 계정 홍보) 의심

Hermes를 향한 반복되는 비판 3가지

자기 평가가 부정확하다 — Hermes는 못 했을 때도 거의 항상 잘했다고 판단한다. 자기 학습 루프의 근본 결함이라는 지적
자동 학습이 수동 커스터마이징을 덮어쓴다
너무 미성숙하다 — 릴리스 이력 11개 vs OpenClaw 137개. 안정성 주장에 신뢰가 안 간다는 의견

OpenClaw를 향한 비판

업데이트마다 버그가 늘어난다("Every new update ships more bugs")
메모리 유지가 불안정해 지시를 잊는다
셀프 호스팅 인프라 요구가 가파르다

공통 화두는 비용이다. 사용자별 일 지출이 $1 ~$ 131+로 편차가 크고, DIY 셀프 호스팅보다 managed 호스팅으로 가는 컨센서스가 형성되고 있다.

코딩 에이전트 쪽은 분위기가 다르다. Claude Code vs Codex는 "둘 다 쓴다"가 정착했다 — 품질의 Claude Code, 효율의 Codex.

종합 비교

축	OpenClaw	Hermes	QwenPaw	Claude Code	Codex
부류	상주형 비서	상주형 비서	상주형 비서	코딩 에이전트	코딩 에이전트
모델 락인	없음	없음	없음	Claude	GPT
영속 메모리	파일 기반	3계층(FTS5+Honcho)	evolving	`CLAUDE.md`	컨텍스트 파일
경험→스킬 자동학습	없음	closed loop	있음	수동	수동
멀티플랫폼 상주	20+ 채널	6종	중화권 강세	없음	없음
멀티에이전트	채널 라우팅	subagent	1급 기능	Agent Teams	클라우드 위임
코딩 깊이	보통	양호	보통	최상	최상
보안	CVE 다발	command approval	가장 명시적	26 hook	커널 샌드박스
약점	학습 없음, 보안	자기평가·미성숙	서구 생태계 얇음	토큰 소모	거친 제어

어떤 걸 선택할까

여러 메신저에 상주 + 알아서 성장 → 학습 우선이면 Hermes, 통합·생태계 우선이면 OpenClaw
멀티에이전트 협업·보안이 핵심, 중화권 메신저 → QwenPaw
코드베이스 작업이 본업 → Claude 진영·로컬 툴링이면 Claude Code, GPT 진영·클라우드 위임·비용 민감이면 Codex (현실적으론 병용)
벤더 락인 절대 회피 → 상주형 3종은 모두 모델 무관, 코딩 에이전트 2종은 모델 고정

핵심 통찰

OpenClaw → Hermes 이주 흐름의 이유는 하나로 압축된다 — "OpenClaw는 매번 새 문제로 푸는데 Hermes는 경험을 스킬로 굳힌다." 하지만 그 자가 개선 루프의 약한 고리는 자기 평가다. 에이전트가 자기 출력을 정확히 못 보면, 학습된 스킬에 오류가 그대로 박힌다. 2026년 자가 개선 에이전트의 진짜 승부처는 "얼마나 학습하느냐"가 아니라 **"자기를 얼마나 정직하게 평가하느냐"**가 될 것이다.

OpenClaw — 통합과 생태계의 왕

개요

아키텍처

메모리와 스킬

통합

보안 이슈

Hermes Agent — 자가 개선 루프의 왕

개요

코드 구조

메모리 3계층

자가 개선 루프

QwenPaw — 멀티에이전트와 보안

개요

코드 구조

차별점

Claude Code — 코드베이스의 시니어 동료

개요

아키텍처 특징

성능

Codex — 클라우드 위임형 코딩 작업자

개요

아키텍처 특징

포지션

코드 레벨에서 본 핵심 차이

논문으로 보는 자가 개선의 이론적 배경

커뮤니티 반응

종합 비교

어떤 걸 선택할까

참고 자료