AI가 화면을 보고 직접 마우스를 클릭한다 — 컴퓨터 조작 전용 오픈소스 모델 Holotron-12B 공개
H Company와 NVIDIA가 컴퓨터를 대신 사용해주는 AI 모델 Holotron-12B를 오픈소스로 공개했습니다. 웹사이트 탐색 성공률 80.5%, 화면 요소 인식 정확도 74.2%, 기존 모델 대비 처리 속도 2배 향상. 무료로 사용할 수 있습니다.
AI가 채팅만 하는 시대는 끝났습니다. 이제 AI가 사람처럼 화면을 보고, 버튼을 찾아 클릭하고, 웹사이트를 돌아다니며 작업을 수행합니다. H Company와 NVIDIA가 함께 만든 Holotron-12B는 '컴퓨터 조작 전용 AI 모델'로, 웹사이트 탐색 성공률 80.5%, 화면 요소 인식 정확도 평균 74.2%를 기록하며 오픈소스로 공개됐습니다.
'컴퓨터 조작 AI'가 정확히 뭔가
지금까지 AI 챗봇은 "이 버튼을 클릭하세요"라고 말만 해줬습니다. 하지만 컴퓨터 조작 AI(Computer Use Agent)는 직접 화면을 봅니다. 화면 위의 버튼, 입력창, 메뉴를 사람의 눈처럼 인식하고 — 실제로 마우스를 움직여 클릭하고, 키보드로 입력합니다.
예를 들어 "항공권 가격 비교해줘"라고 하면, AI가 직접 여행 사이트에 접속해서 날짜를 입력하고, 검색 버튼을 누르고, 결과를 정리해서 알려주는 식입니다. Holotron-12B는 바로 이 '화면을 보고 행동하는' 능력에 특화된 모델입니다.
성능 — 숫자로 확인하기
웹사이트 탐색: 10번 중 8번 성공
AI에게 "이 사이트에서 특정 정보를 찾아와"라고 시키는 WebVoyager 테스트에서, Holotron-12B는 80.5% 성공률을 기록했습니다. 같은 테스트에서 기반이 된 NVIDIA의 원본 모델(Nemotron-Nano-12B)은 35.1%에 불과했으니, 학습을 통해 성공률이 2.3배로 뛰어오른 셈입니다.
경쟁 모델인 Holo2-8B(Qwen3 기반)도 80.2%를 기록해 성공률은 비슷하지만, Holotron-12B는 처리 속도에서 2배 이상 앞섭니다 — 같은 작업을 절반의 시간에 끝낼 수 있다는 뜻입니다.
화면 요소 인식: '이 버튼이 어디 있는지' 찾는 능력
AI가 화면에서 특정 버튼이나 입력창의 위치를 정확히 찾아내는 능력도 대폭 향상됐습니다. 5가지 GUI 인식 테스트 평균 정확도가 74.2%로, 원본 모델(24.6%)의 3배입니다.
- ScreenSpot V2 (화면 요소 위치 찾기): 89.9% — 원본 36.7%의 2.4배
- WebClick v1 (웹에서 클릭할 곳 찾기): 83.8% — 원본 18.0%의 4.7배
- GroundUI-1k (UI 요소 매핑): 82.0% — 원본 33.5%의 2.4배
- Showdown (화면 이해 종합): 66.1% — 원본 23.9%의 2.8배
- OSWorld-G (운영체제 조작): 49.0% — 원본 11.0%의 4.5배
속도: 같은 GPU에서 2배 빠르게
Holotron-12B가 빠른 이유는 하이브리드 SSM(State-Space Model) 구조 덕분입니다. 일반적인 AI 모델(트랜스포머)은 입력이 길어질수록 메모리 사용량이 급격히 늘어나는데, SSM은 입력 길이에 관계없이 일정한 메모리만 사용합니다. 쉽게 말해, 화면 스크린샷을 여러 장 봐야 하는 상황에서도 속도가 느려지지 않습니다.
단일 NVIDIA H100 GPU에서 동시 작업 100개를 처리할 때, Holotron-12B는 초당 8,900개 토큰을 생성합니다. 경쟁 모델(Holo2-8B)의 5,100개 토큰 대비 1.75배입니다. 동시 작업이 적을 때의 단일 추론 속도는 초당 149개 토큰으로, 경쟁 모델(69개 토큰)의 2.16배입니다.
왜 '오픈소스'가 중요한가
지금까지 화면을 보고 조작하는 AI는 대부분 유료 서비스였습니다. Claude의 Computer Use, OpenAI의 Operator 같은 기능은 API 호출마다 비용이 발생합니다. Holotron-12B는 NVIDIA 오픈 모델 라이선스로 공개되어, 누구나 무료로 다운로드해서 자체 서버에서 실행할 수 있습니다.
이는 기업 입장에서 특히 의미가 큽니다. 고객 지원 자동화, 내부 시스템 테스트, 데이터 수집 같은 반복 작업에 AI 컴퓨터 조작을 도입할 때, API 비용 없이 자체 인프라에서 운영할 수 있기 때문입니다.
어떻게 만들어졌나 — NVIDIA Nemotron 위에 쌓은 '전문 교육'
Holotron-12B는 NVIDIA의 Nemotron-Nano-12B-v2를 기반으로, H Company가 자체 수집한 화면 조작 데이터 약 140억 개 토큰으로 추가 학습시킨 모델입니다. 학습은 2단계로 진행됐습니다:
1단계: 화면 이해 — 스크린샷을 보고 "이것은 검색 버튼이다", "이것은 입력 필드다"를 구분하는 훈련
2단계: 행동 결정 — "검색 결과를 보려면 어디를 클릭해야 하는가"를 판단하는 훈련
쉽게 비유하면, 범용 AI(Nemotron)에게 '컴퓨터 학원 수업'을 시킨 결과물입니다. 일반적인 대화 능력 대신, 화면을 읽고 조작하는 전문 능력에 집중한 것입니다.
개발자라면 — 직접 실행하는 방법
Holotron-12B는 Hugging Face에서 바로 다운로드할 수 있습니다. 필요한 패키지 설치:
pip install torch "transformers>4.53,<4.54" causal_conv1d timm "mamba-ssm==2.2.5" accelerate open_clip_torch numpy pillow
모델 다운로드 및 사용은 Hugging Face 모델 페이지에서 확인할 수 있습니다. H100 GPU 1장이면 충분히 실행 가능하며, vLLM을 통한 배포도 지원합니다.
앞으로 어떻게 될까
H Company는 이미 차세대 모델 준비에 들어갔습니다. NVIDIA의 Nemotron 3 Omni 기반으로 MoE(여러 전문가 모델을 상황에 맞게 골라 쓰는 구조) 아키텍처를 적용해, 더 정확하고 빠른 컴퓨터 조작 AI를 목표로 하고 있습니다.
이번 GTC 2026에서 NVIDIA가 로봇·자율주행·AI 에이전트 전용 칩을 대거 발표한 것과 맞물려, 'AI가 화면을 보고 직접 행동하는' 기술은 2026년 가장 뜨거운 AI 트렌드 중 하나가 되고 있습니다. 지금까지 ChatGPT나 Claude가 "이렇게 하세요"라고 알려주기만 했다면, 앞으로는 AI가 대신 해주는 시대가 빠르게 다가오고 있습니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기
출처