AI에게 실제 업무를 시켜봤더니 37%만 성공했습니다 — 1150건 테스트로 드러난 AI 비서의 한계
ServiceNow 연구팀이 이메일, 인사, IT 지원 등 실제 기업 업무 1,150건을 AI에게 시켜본 결과, 가장 뛰어난 AI(Claude Opus 4.5)조차 37.4%만 성공했습니다. 문제는 도구 사용이 아니라 '전략적 계획 능력' 부족이었습니다...
요약: AI 비서에게 이메일 정리, 고객 문의 처리, 인사 관리 같은 실제 사무 업무를 시키면 얼마나 잘 해낼까요? ServiceNow 연구팀과 캐나다 몬트리올 AI 연구소 Mila가 1,150건의 기업 업무를 8개 분야에 걸쳐 테스트한 결과, 현존 최고 AI인 Claude Opus 4.5도 성공률 37.4%에 그쳤습니다. 이 연구는 "AI가 곧 사무직을 대체한다"는 기대에 냉정한 현실 점검을 던져줍니다.
이메일부터 인사까지, AI에게 진짜 사무실 업무를 맡겨봤다
EnterpriseOps-Gym은 단순한 챗봇 테스트가 아닙니다. 실제 회사에서 매일 일어나는 업무를 그대로 옮겨놓은 가상 사무실입니다. 164개의 데이터베이스 테이블, 512개의 업무 도구, 그리고 전문가가 직접 만든 1,150건의 과제가 들어 있습니다.
테스트 분야는 8가지입니다:
각 과제는 평균 9.15단계를 거쳐야 완료됩니다. 복잡한 인사 업무는 최대 34단계까지 필요하고, 과제 하나당 평균 5.3개의 검증 조건을 통과해야 '성공'으로 인정됩니다.
최고 AI도 10번 중 4번밖에 성공 못 한다
연구팀은 현존하는 주요 AI 모델 16종을 모두 테스트했습니다. 결과는 다음과 같습니다:
주요 AI 모델 성공률 (전체 평균)
| AI 모델 | 성공률 | 과제당 비용 |
|---|---|---|
| Claude Opus 4.5 (Anthropic) | 37.4% 🥇 | 약 470원 |
| Gemini 3 Flash (Google) | 31.9% | 약 40원 |
| GPT-5.2 High (OpenAI) | 31.8% | — |
| Claude Sonnet 4.5 | 30.9% | — |
| GPT-5 (OpenAI) | 29.8% | — |
| DeepSeek V3.2 (오픈소스 1위) | 24.5% | 약 18원 |
가장 뛰어난 Claude Opus 4.5도 10번 중 4번밖에 성공하지 못했습니다. 이메일·파일 관리처럼 비교적 단순한 업무에서는 50% 안팎의 성공률을 보였지만, IT 지원(23.8%)이나 부서 연계 업무(30.7%)처럼 규정을 따져야 하는 복잡한 업무에서는 크게 떨어졌습니다.
AI의 진짜 약점: 도구가 아니라 '계획'
가장 놀라운 발견은 이것입니다. 연구팀이 AI에게 사람이 짠 업무 계획을 미리 알려줬더니, 성공률이 14~35%p나 올라갔습니다. 반면 사용할 도구를 512개에서 더 늘려 방해 요소를 추가해도 성공률은 겨우 1% 정도만 떨어졌습니다.
쉽게 말해, AI는 "어떤 도구를 쓸지"는 잘 고르지만, "어떤 순서로 무엇부터 해야 하는지"를 전략적으로 계획하는 능력이 부족합니다. 마치 도구는 잘 다루는데 업무 흐름을 모르는 신입사원과 비슷합니다.
더 주목할 점은 작은 AI + 좋은 계획의 조합입니다. 매개변수(AI의 뇌 크기를 나타내는 수치) 4B짜리 소형 모델 Qwen3-4B에 사람이 짠 계획을 주자, 훨씬 큰 모델들과 비슷하거나 더 나은 성적을 냈습니다. 비싼 AI를 쓰는 것보다 좋은 업무 매뉴얼을 만드는 게 더 효과적이라는 뜻입니다.
불가능한 일도 시키면 그냥 해버린다
연구팀은 의도적으로 불가능한 업무 30건도 섞어놨습니다. 예를 들어 존재하지 않는 직원의 정보를 수정하라거나, 권한 없는 시스템에 접근하라는 요청입니다. 제대로 된 AI 비서라면 "이건 할 수 없습니다"라고 거부해야 합니다.
결과는 충격적이었습니다. 가장 잘 거부한 모델(GPT-5.2 Low)도 53.9% — 동전 던지기와 다를 바 없었습니다. Claude Opus 4.5는 정확히 50%였습니다. 나머지 절반은 불가능한 업무를 억지로 수행하다 데이터를 엉망으로 만들었습니다. 실제 업무 환경이었다면 잘못된 고객 정보 수정이나 권한 없는 시스템 변경으로 이어질 수 있는 심각한 문제입니다.
업무가 길어지면 AI 성공률은 급락한다
4단계짜리 단순 업무에서 AI의 성공률은 약 35%였지만, 16단계 이상의 복잡한 업무에서는 20% 이하로 떨어졌습니다. 단계가 늘어날수록 앞에서 저지른 작은 실수가 눈덩이처럼 불어나는 것입니다. 오픈소스 모델은 이 하락이 더 가팔랐습니다.
AI 여러 개를 팀으로 묶어도 해결 안 된다
"AI 하나가 안 되면 여러 개를 쓰면 되지 않나?" 연구팀은 이것도 테스트했습니다. 계획 담당 AI + 실행 담당 AI로 역할을 나누거나, 업무를 잘게 쪼개서 여러 AI에게 분배하는 방식을 시도했습니다. 기본 방식보다는 약간 나아졌지만, 사람이 짠 계획에 비하면 한참 부족했습니다. 오히려 업무를 잘게 쪼갤 경우, 앞뒤 맥락이 끊겨서 성능이 더 떨어지기도 했습니다.
가성비 최고는 구글 Gemini 3 Flash
비용 대비 성능을 따지면 Gemini 3 Flash가 과제당 약 40원에 31.9% 성공률로 가장 효율적이었습니다. Claude Opus 4.5는 성공률은 높지만 과제당 약 470원으로 12배 비쌉니다. 오픈소스 중에서는 DeepSeek V3.2가 과제당 약 18원에 24.5%로 가장 경제적이었습니다.
지금 AI 비서를 업무에 도입하려는 분들에게
이 연구가 말하는 핵심은 명확합니다:
1. AI에게 업무를 맡기려면 '매뉴얼'부터 만들어야 합니다. AI는 도구는 잘 다루지만 계획은 못 세웁니다. 업무 절차를 단계별로 정리해서 AI에게 알려주면 성공률이 크게 올라갑니다.
2. 비싼 AI보다 좋은 프롬프트(지시문)가 더 중요합니다. 소형 무료 AI + 잘 짜인 업무 지시문이 고가 AI를 이길 수 있습니다.
3. AI의 "완료했습니다" 메시지를 그대로 믿으면 안 됩니다. AI는 불가능한 업무도 절반은 그냥 시도합니다. 중요한 업무는 반드시 사람이 결과를 확인해야 합니다.
4. 이메일·파일 정리 같은 단순 업무부터 시작하는 게 현명합니다. 이 분야에서는 50% 이상 성공률을 보이지만, 복잡한 규정이 얽힌 업무는 아직 AI에게 맡기기엔 위험합니다.
연구팀은 논문과 전체 벤치마크를 오픈소스로 공개했습니다. 직접 살펴보고 싶다면 GitHub 저장소에서 코드와 데이터를 확인할 수 있습니다.
AI와 바이브코딩에 대해 더 알고 싶다면 무료 학습 가이드를 확인해보시기 바랍니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드