내 AI 비서에게 가상 사무실에서 연습시켰더니 사람보다 컴퓨터를 잘 쓴다
a16z가 560억 원을 투자한 Deeptune은 AI 에이전트에게 Slack·Salesforce 등 가상 사무실에서 반복 훈련시키는 '비행 시뮬레이터'를 만듭니다. 컴퓨터 조작 벤치마크에서 AI가 드디어 사람을 넘어섰습니다.
AI 비서에게 "이메일 보내줘", "보고서 작성해줘"라고 시키면 가끔 엉뚱한 버튼을 누르거나 엉뚱한 파일을 여는 경험, 해보셨을 겁니다. 그런데 AI가 진짜 사람처럼 컴퓨터를 다루려면 어디서 연습해야 할까요? 뉴욕의 스타트업 Deeptune이 그 답을 내놨습니다 — 바로 '가상 사무실 훈련소'입니다.
실리콘밸리 최대 벤처캐피탈 a16z(안드리센 호로위츠)가 4,300만 달러(약 560억 원)를 투자했고, 이 훈련소에서 연습한 AI는 컴퓨터 조작 정확도에서 사람을 넘어서는 결과를 보여주고 있습니다.

OSWorld 벤치마크의 과제 예시. AI 에이전트가 영수증을 보고 장부를 업데이트하거나, 코드를 수정하는 등 실제 업무를 수행합니다.
AI 조종사에게도 비행 시뮬레이터가 필요하다
비행기 조종사는 실제 비행기를 모는 것보다 시뮬레이터에서 훨씬 많은 시간을 보냅니다. Deeptune 창업자 팀 루포(Tim Lupo)는 "AI 에이전트에게도 똑같은 게 필요하다"고 말합니다.
Deeptune이 만드는 것은 실제 업무 소프트웨어를 그대로 복제한 가상 환경입니다. Slack(업무 메신저), Salesforce(고객 관리 시스템), 스프레드시트, 이메일 클라이언트 등을 가상으로 재현해서, AI가 그 안에서 수백 번, 수천 번 반복 연습할 수 있게 합니다.
핵심 원리: 강화학습(시행착오로 배우는 학습법)
기존 AI는 사람이 만든 정답 데이터를 읽고 배웠습니다. Deeptune의 방식은 다릅니다. AI가 가상 사무실에서 직접 버튼을 클릭하고 파일을 열어보면서, 잘했으면 보상을 받고, 틀렸으면 다시 해보는 식으로 스스로 실력을 키웁니다. 마치 아기가 걸음마를 배우듯, 수없이 넘어지면서 배우는 것과 같습니다.
8개월 만에 12%에서 72%로 — 사람을 넘어선 순간
AI의 컴퓨터 조작 능력을 측정하는 대표적인 시험이 OSWorld입니다. 2024년 NeurIPS(세계 최대 AI 학회)에서 발표된 이 벤치마크는 369개의 실제 업무 과제를 AI에게 시킵니다. 장부 업데이트, 이메일 정리, 코드 수정, 파일 관리 등 우리가 매일 컴퓨터로 하는 일들입니다.

AI 에이전트가 "프렌즈 동영상에서 자막을 분리해달라"는 요청을 받고, 6단계에 걸쳐 터미널을 열고 명령어를 입력해 직접 처리하는 모습.
결과는 놀라웠습니다:
2025년 7월 — 최고 성능 AI 모델의 정확도: 12.24%
사람의 정확도: 72.36%
2026년 3월 — Claude Opus 4.6의 정확도: 72.7%, GPT-5.4: 75% (a16z 발표 기준)
불과 8개월 만에 AI의 성적이 6배 올랐고, 마침내 사람의 성적을 넘어섰습니다. a16z 파트너 마르코 마스코로(Marco Mascorro)는 "AI 모델이 더 이상 사람이 만든 정답 데이터에만 의존하지 않고, 직접 상호작용하면서 배우는 시대가 왔다"고 평가했습니다.
이미 수백 개의 훈련소를 만들어 AI 연구소에 납품 중
Deeptune은 이미 주요 AI 연구소들과 협업하고 있습니다. 현재까지 수백 개의 훈련 환경을 구축했으며, 각 환경에는 과제, 데이터셋, 평가 시스템이 포함되어 있습니다. 개발자는 몇 줄의 코드만으로 이 훈련소를 자신의 AI에 연결할 수 있습니다.
투자자들은 이 시장의 폭발적 성장을 예측합니다. 글로벌 AI 훈련 시장은 2025년 116억 달러(약 15조 원)에서 2034년 900억 달러(약 117조 원)로 성장할 전망입니다. a16z는 "지난 10년의 AI 발전이 더 나은 데이터 덕분이었다면, 앞으로 10년은 더 나은 훈련 환경이 AI 발전을 이끌 것"이라고 전망했습니다.
내 AI 비서가 더 똑똑해지는 원리
이게 나와 무슨 상관일까요? 직접적인 관계가 있습니다.
사무직이라면 — ChatGPT, Claude, Gemini 같은 AI 비서가 "이메일 보내줘", "보고서 정리해줘" 같은 요청을 점점 더 정확하게 처리하게 됩니다. 지금은 가끔 엉뚱한 행동을 하지만, Deeptune 같은 훈련소에서 수천 번 연습한 AI는 실수가 크게 줄어듭니다.
개발자라면 — AI 코딩 에이전트가 IDE(코드 편집기)에서 파일을 열고, 수정하고, 테스트를 돌리는 과정이 훨씬 자연스러워집니다. Terminal-Bench(명령줄 작업 벤치마크)에서도 Deeptune의 훈련 환경이 활용되고 있습니다.
경영자라면 — AI 에이전트가 CRM(고객 관리), ERP(전사 자원 관리) 같은 업무 소프트웨어를 직접 조작하는 시대가 빠르게 다가오고 있습니다. 117조 원 규모의 시장이 열리는 만큼, 관련 도입 전략을 미리 세워둘 필요가 있습니다.
AI 훈련의 패러다임이 바뀌고 있다
지금까지 AI는 주로 텍스트를 읽고 다음 단어를 맞추는 방식으로 훈련됐습니다. 하지만 AI가 실제로 컴퓨터를 조작하려면, 텍스트만 읽어서는 부족합니다. 화면을 보고, 마우스를 움직이고, 키보드를 치는 연습이 필요합니다.

AI 에이전트 훈련 환경의 구조. AI가 가상 컴퓨터의 화면을 관찰하고, 마우스와 키보드로 직접 조작하며, 결과를 평가받는 과정을 반복합니다.
Deeptune은 바로 이 "연습할 공간"을 만드는 회사입니다. 그리고 그 결과, AI의 컴퓨터 조작 능력이 사람 수준에 도달했습니다. AI 비행 시뮬레이터가 더 좋아질수록, 우리가 쓰는 AI 비서도 더 똑똑해집니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기