2026-03-21AI 에이전트Agent S3컴퓨터 자동화오픈소스 AIAI 자동화OSWorldGUI 자동화바이브코딩

AI 에이전트 Agent S3, 컴퓨터 조작 성공률 72.6%로 사람을 넘다

엑셀 수식, 웹 검색, 파일 정리까지 AI가 대신합니다. 무료 오픈소스 Agent S3가 컴퓨터 조작 벤치마크에서 72.6%를 기록해 사람(72%)을 처음 넘었습니다. pip 한 줄이면 설치 끝, 직접 써보세요.

AI 에이전트가 화면을 보고, 마우스를 움직이고, 키보드를 쳐서 사람이 하는 컴퓨터 작업을 자동화합니다. 그런데 이번에 나온 결과는 단순히 '대신 해준다'가 아닙니다. 사람보다 더 잘합니다.

Simular AI 연구팀이 공개한 오픈소스 AI 에이전트 Agent S3가 컴퓨터 조작 벤치마크 OSWorld에서 72.6% 성공률을 기록했습니다. 사람의 성공률이 약 72%이니, AI가 처음으로 사람 수준의 벽을 넘은 겁니다. 깃허브 스타 1만 400개, ICLR 2025 최우수 논문상 수상작입니다.

Agent S3 OSWorld 벤치마크 결과 — 성공률 72.6%로 사람 수준(약 72%)을 처음 돌파한 AI 에이전트

OpenAI·Claude를 모두 제친 AI 에이전트 성적표

OSWorld는 실제 데스크톱 환경에서 AI에게 엑셀 수식 입력, 웹 검색, 파일 정리 같은 작업을 시키고 성공 여부를 측정하는 시험입니다. 100단계까지 진행되는 복잡한 작업도 포함됩니다.

주요 경쟁자들의 성적을 비교하면 Agent S3의 결과가 얼마나 놀라운지 알 수 있습니다.

OSWorld 벤치마크 성공률 비교

🟣 Agent S3 — 72.6% (사람 수준 돌파)

🔴 GTA1 + GPT-5 — 63.4% (기존 1위)

🟤 Claude 4.5 Sonnet — 62.9%

🔵 CoACT-1 — 59.9%

🟡 GTA1 — 53.1%

🟢 Agent S2 — 48.8%

🔵 Claude 4 Sonnet — 41.4%

🟠 OpenAI CUA — 30.5%

OpenAI의 CUA(Computer Use Agent, AI가 컴퓨터를 직접 조작하는 기능)보다 2.4배, Claude 4 Sonnet보다 1.75배 높은 성공률입니다. 기존 최고 기록이었던 GTA1 + GPT-5의 63.4%도 9.2%포인트 차이로 앞질렀습니다.

데스크톱뿐 아닙니다. 윈도우 전용 시험(WindowsAgentArena)에서 56.6%, 스마트폰 시험(AndroidWorld)에서 71.6%를 기록했습니다. 한 마디로, 컴퓨터든 스마트폰이든 화면이 있는 기기라면 사람만큼 조작할 수 있다는 뜻입니다.

AI 에이전트가 컴퓨터를 '보고 기억하는' 원리

Agent S3 작동 원리 다이어그램 — 화면 인식, 경험 기억, 작업 계획 수립 과정

Agent S3가 이렇게 높은 성적을 낸 비결은 세 가지입니다.

1. 화면을 눈으로 보는 능력

UI-TARS라는 시각 모델이 화면의 버튼, 메뉴, 입력칸 위치를 정확히 파악합니다. 사람이 모니터를 보듯, AI도 화면을 '보고' 어디를 클릭해야 할지 판단합니다.

2. 과거 경험을 기억하는 능력

비슷한 작업을 했던 경험을 기억해둡니다. 예를 들어 '엑셀에서 합계 구하기'를 한 번 해봤으면, 나중에 비슷한 요청이 오면 그 방법을 바로 떠올립니다.

3. 작업을 쪼개서 계획하는 능력

'월별 매출을 계산하고 차트를 만들어줘'라는 요청이 오면, ① 셀 선택 → ② 수식 입력 → ③ 차트 삽입 순서로 스스로 계획을 세웁니다.

이처럼 Agent S3는 화면 인식 → 경험 활용 → 계획 수립의 3단계를 거치는데, 이것이 바로 요즘 주목받는 에이전틱 AI의 핵심 작동 방식입니다. 단순히 명령을 받아 실행하는 수준이 아니라, 스스로 판단하고 행동하는 자율형 AI인 셈입니다.

Agent S3 설치 방법 — pip 한 줄이면 끝

Agent S3는 완전 무료 오픈소스입니다. Python과 터미널(명령어 입력 창)이 있으면 누구나 설치할 수 있습니다.

# 1. 설치
pip install gui-agents

# 2. macOS라면 추가 설치
brew install tesseract

# 3. 실행 (OpenAI API 키 필요)
export OPENAI_API_KEY="sk-..."
python -m gui_agents.s3_agent --task "구글에서 오늘 날씨 검색해줘"

주의할 점이 있습니다. 모니터 1대만 연결된 환경에서 작동하고, AI가 작업하는 동안에는 마우스와 키보드를 건드리면 안 됩니다. AI가 실제로 화면을 보고 클릭하는 방식이라, 사람이 동시에 조작하면 충돌이 발생합니다.

현재 지원하는 AI 모델은 GPT-5(권장), Claude, Gemini이고, Hugging Face에 올라간 오픈소스 모델로도 구동할 수 있습니다. API 키 설정이 처음이라면 API 연동 가이드를 참고하세요.

72.6%의 의미 — 그리고 남은 27.4%

숫자만 보면 '사람을 이겼다'지만, 정확히 말하면 Behavior Best-of-N이라는 기법을 썼을 때의 결과입니다. 같은 작업을 여러 번 시도하고 가장 좋은 결과를 고르는 방식입니다. 한 번만 시도했을 때는 66%입니다. 사람은 한 번에 72%를 해내니, 아직 '진짜로 사람보다 낫다'고 하기엔 조건이 붙습니다.

그래도 이 결과가 중요한 이유가 있습니다. 불과 1년 전 Agent S(1세대)의 성공률은 20.6%였습니다. 그것이 S2에서 48.8%, S3에서 72.6%로 뛰었습니다. 1년 만에 3.5배 향상된 겁니다. 이 속도라면 올해 안에 '한 번 시도로 사람을 넘는' AI가 나올 가능성이 충분합니다.

실무적으로 보면, 지금도 반복적인 컴퓨터 작업 — 데이터 정리, 양식 작성, 웹에서 정보 수집 같은 일 — 은 Agent S3에게 맡길 수 있는 수준입니다. 특히 매일 같은 패턴의 작업을 반복하는 사무직이라면, AI에게 시키고 결과만 확인하는 방식이 현실적으로 가능해졌습니다.

Agent S3 핵심 정리

• OSWorld 성공률 72.6% — 사람(~72%)을 처음 돌파한 AI

• Windows·Android에서도 작동 — 데스크톱과 스마트폰 모두 지원

• 완전 무료 오픈소스 — pip install gui-agents 한 줄로 설치

• ICLR 2025 최우수 논문상 수상

• GitHub 스타 1만 400개

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독