2026-03-17AI벤치마크기업AIAI에이전트ClaudeGPT생산성

AI에게 실제 업무를 시켜봤더니 37%만 성공했습니다 — 1150건 테스트로 드러난 AI 비서의 한계

ServiceNow 연구팀이 이메일, 인사, IT 지원 등 실제 기업 업무 1,150건을 AI에게 시켜본 결과, 가장 뛰어난 AI(Claude Opus 4.5)조차 37.4%만 성공했습니다. 문제는 도구 사용이 아니라 '전략적 계획 능력' 부족이었습니다...

요약: AI 비서에게 이메일 정리, 고객 문의 처리, 인사 관리 같은 실제 사무 업무를 시키면 얼마나 잘 해낼까요? ServiceNow 연구팀과 캐나다 몬트리올 AI 연구소 Mila가 1,150건의 기업 업무를 8개 분야에 걸쳐 테스트한 결과, 현존 최고 AI인 Claude Opus 4.5도 성공률 37.4%에 그쳤습니다. 이 연구는 "AI가 곧 사무직을 대체한다"는 기대에 냉정한 현실 점검을 던져줍니다.

이메일부터 인사까지, AI에게 진짜 사무실 업무를 맡겨봤다

EnterpriseOps-Gym은 단순한 챗봇 테스트가 아닙니다. 실제 회사에서 매일 일어나는 업무를 그대로 옮겨놓은 가상 사무실입니다. 164개의 데이터베이스 테이블, 512개의 업무 도구, 그리고 전문가가 직접 만든 1,150건의 과제가 들어 있습니다.

EnterpriseOps-Gym 벤치마크 구조도 — 기업 업무 시뮬레이션 환경과 AI 에이전트 평가 과정

테스트 분야는 8가지입니다:

이메일 — 메일 분류, 전달, 답장

일정 관리 — 회의 잡기, 일정 변경

팀 협업 — 채팅방 관리, 메시지 전송

파일 관리 — 문서 정리, 공유 설정

고객 서비스(CSM) — 문의 처리, 지식 연결

인사(HR) — 직원 정보 처리, 규정 확인

IT 지원(ITSM) — 장애 티켓, 시스템 설정

부서 연계 — 여러 팀에 걸친 복합 업무

각 과제는 평균 9.15단계를 거쳐야 완료됩니다. 복잡한 인사 업무는 최대 34단계까지 필요하고, 과제 하나당 평균 5.3개의 검증 조건을 통과해야 '성공'으로 인정됩니다.

최고 AI도 10번 중 4번밖에 성공 못 한다

연구팀은 현존하는 주요 AI 모델 16종을 모두 테스트했습니다. 결과는 다음과 같습니다:

주요 AI 모델 성공률 (전체 평균)

AI 모델	성공률	과제당 비용
Claude Opus 4.5 (Anthropic)	37.4% 🥇	약 470원
Gemini 3 Flash (Google)	31.9%	약 40원
GPT-5.2 High (OpenAI)	31.8%	—
Claude Sonnet 4.5	30.9%	—
GPT-5 (OpenAI)	29.8%	—
DeepSeek V3.2 (오픈소스 1위)	24.5%	약 18원

가장 뛰어난 Claude Opus 4.5도 10번 중 4번밖에 성공하지 못했습니다. 이메일·파일 관리처럼 비교적 단순한 업무에서는 50% 안팎의 성공률을 보였지만, IT 지원(23.8%)이나 부서 연계 업무(30.7%)처럼 규정을 따져야 하는 복잡한 업무에서는 크게 떨어졌습니다.

AI의 진짜 약점: 도구가 아니라 '계획'

가장 놀라운 발견은 이것입니다. 연구팀이 AI에게 사람이 짠 업무 계획을 미리 알려줬더니, 성공률이 14~35%p나 올라갔습니다. 반면 사용할 도구를 512개에서 더 늘려 방해 요소를 추가해도 성공률은 겨우 1% 정도만 떨어졌습니다.

쉽게 말해, AI는 "어떤 도구를 쓸지"는 잘 고르지만, "어떤 순서로 무엇부터 해야 하는지"를 전략적으로 계획하는 능력이 부족합니다. 마치 도구는 잘 다루는데 업무 흐름을 모르는 신입사원과 비슷합니다.

더 주목할 점은 작은 AI + 좋은 계획의 조합입니다. 매개변수(AI의 뇌 크기를 나타내는 수치) 4B짜리 소형 모델 Qwen3-4B에 사람이 짠 계획을 주자, 훨씬 큰 모델들과 비슷하거나 더 나은 성적을 냈습니다. 비싼 AI를 쓰는 것보다 좋은 업무 매뉴얼을 만드는 게 더 효과적이라는 뜻입니다.

불가능한 일도 시키면 그냥 해버린다

연구팀은 의도적으로 불가능한 업무 30건도 섞어놨습니다. 예를 들어 존재하지 않는 직원의 정보를 수정하라거나, 권한 없는 시스템에 접근하라는 요청입니다. 제대로 된 AI 비서라면 "이건 할 수 없습니다"라고 거부해야 합니다.

결과는 충격적이었습니다. 가장 잘 거부한 모델(GPT-5.2 Low)도 53.9% — 동전 던지기와 다를 바 없었습니다. Claude Opus 4.5는 정확히 50%였습니다. 나머지 절반은 불가능한 업무를 억지로 수행하다 데이터를 엉망으로 만들었습니다. 실제 업무 환경이었다면 잘못된 고객 정보 수정이나 권한 없는 시스템 변경으로 이어질 수 있는 심각한 문제입니다.

업무가 길어지면 AI 성공률은 급락한다

4단계짜리 단순 업무에서 AI의 성공률은 약 35%였지만, 16단계 이상의 복잡한 업무에서는 20% 이하로 떨어졌습니다. 단계가 늘어날수록 앞에서 저지른 작은 실수가 눈덩이처럼 불어나는 것입니다. 오픈소스 모델은 이 하락이 더 가팔랐습니다.

AI 여러 개를 팀으로 묶어도 해결 안 된다

"AI 하나가 안 되면 여러 개를 쓰면 되지 않나?" 연구팀은 이것도 테스트했습니다. 계획 담당 AI + 실행 담당 AI로 역할을 나누거나, 업무를 잘게 쪼개서 여러 AI에게 분배하는 방식을 시도했습니다. 기본 방식보다는 약간 나아졌지만, 사람이 짠 계획에 비하면 한참 부족했습니다. 오히려 업무를 잘게 쪼갤 경우, 앞뒤 맥락이 끊겨서 성능이 더 떨어지기도 했습니다.

가성비 최고는 구글 Gemini 3 Flash

비용 대비 성능을 따지면 Gemini 3 Flash가 과제당 약 40원에 31.9% 성공률로 가장 효율적이었습니다. Claude Opus 4.5는 성공률은 높지만 과제당 약 470원으로 12배 비쌉니다. 오픈소스 중에서는 DeepSeek V3.2가 과제당 약 18원에 24.5%로 가장 경제적이었습니다.

지금 AI 비서를 업무에 도입하려는 분들에게

이 연구가 말하는 핵심은 명확합니다:

1. AI에게 업무를 맡기려면 '매뉴얼'부터 만들어야 합니다. AI는 도구는 잘 다루지만 계획은 못 세웁니다. 업무 절차를 단계별로 정리해서 AI에게 알려주면 성공률이 크게 올라갑니다.

2. 비싼 AI보다 좋은 프롬프트(지시문)가 더 중요합니다. 소형 무료 AI + 잘 짜인 업무 지시문이 고가 AI를 이길 수 있습니다.

3. AI의 "완료했습니다" 메시지를 그대로 믿으면 안 됩니다. AI는 불가능한 업무도 절반은 그냥 시도합니다. 중요한 업무는 반드시 사람이 결과를 확인해야 합니다.

4. 이메일·파일 정리 같은 단순 업무부터 시작하는 게 현명합니다. 이 분야에서는 50% 이상 성공률을 보이지만, 복잡한 규정이 얽힌 업무는 아직 AI에게 맡기기엔 위험합니다.

연구팀은 논문과 전체 벤치마크를 오픈소스로 공개했습니다. 직접 살펴보고 싶다면 GitHub 저장소에서 코드와 데이터를 확인할 수 있습니다.

AI와 바이브코딩에 대해 더 알고 싶다면 무료 학습 가이드를 확인해보시기 바랍니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독