MolmoWeb — 스크린샷만으로 웹 자동화하는 오픈소스 AI 에이전트
스크린샷만 보고 웹을 조작하는 AI가 무료 공개됐습니다. 80억 파라미터로 GPT-4o 에이전트를 이긴 MolmoWeb — 모델·데이터·코드 전부 Apache 2.0, 내 컴퓨터에서 바로 실행 가능합니다.
AI에게 '에어비앤비에서 샌프란시스코 숙소 찾아줘'라고 말하면, 직접 브라우저를 열고 날짜를 선택하고 검색 버튼을 누릅니다. 다른 웹 자동화 AI와 결정적으로 다른 점이 하나 있습니다. 이 AI는 웹페이지의 소스 코드를 전혀 읽지 않습니다. 사람처럼 화면 스크린샷만 보고 어디를 클릭할지 판단합니다.
미국의 AI 연구소 AI2(Allen Institute for AI)가 만든 MolmoWeb이 바로 그 주인공입니다. 모델 가중치, 학습 데이터, 코드, 평가 도구까지 전부 Apache 2.0 라이선스로 무료 공개했습니다.
화면만 보고 웹을 조작하는 AI — 왜 다른가
기존 웹 자동화 AI 대부분은 웹페이지의 HTML 코드나 접근성 트리(화면 뒤에 숨겨진 구조 데이터)를 읽어서 동작합니다. 문제는 웹사이트가 업데이트될 때마다 코드 구조가 바뀌면 AI도 같이 고장 난다는 것입니다.
MolmoWeb은 접근 방식이 완전히 다릅니다. 브라우저 화면을 캡처 → 어디를 클릭/입력할지 판단 → 실행 → 다시 화면 캡처를 반복합니다. AI2 팀은 "웹사이트의 겉모습은 내부 코드보다 훨씬 덜 바뀐다"고 설명합니다. 사람이 눈으로 화면을 보고 마우스를 움직이는 것과 같은 원리입니다.
이처럼 목표를 받아 여러 단계를 스스로 계획하고 실행하는 AI를 에이전틱 AI(Agentic AI)라고 부릅니다. MolmoWeb은 웹 자동화에 특화된 에이전틱 AI의 가장 직관적인 사례입니다.
MolmoWeb이 에어비앤비에서 숙소를 검색하는 실제 데모. 오른쪽에 AI의 사고 과정과 실행한 동작이 표시됩니다.
80억 파라미터로 GPT-4o 기반 에이전트를 이겼다
MolmoWeb의 가장 놀라운 점은 크기 대비 성능입니다. 8B(80억 파라미터) 모델과 4B(40억 파라미터) 모델, 두 가지를 제공합니다.
WebVoyager 벤치마크 성공률
동일 테스트를 여러 번 반복하면 성공률이 94.7%까지 올라갑니다.
특히 GPT-4o를 기반으로 만든 웹 에이전트들보다 더 높은 점수를 기록했습니다. GPT-4o 에이전트는 스크린샷뿐 아니라 HTML 구조 데이터까지 함께 활용하는데도, 스크린샷만 보는 MolmoWeb에 졌습니다. 모델 크기도 수십 배 작습니다.
위키피디아에서 'Allen Institute for AI'를 검색하는 MolmoWeb. 검색창에 텍스트를 입력하고 엔터까지 자동으로 실행합니다.
역대 최대 규모의 웹 작업 학습 데이터도 함께 공개
MolmoWeb을 학습시킨 데이터셋 MolmoWebMix도 함께 공개됐습니다. 이 데이터가 얼마나 큰지 숫자로 보겠습니다.
3만 6,000개의 사람이 직접 수행한 웹 작업 녹화 — 실제 사람들이 1,100개 이상의 웹사이트에서 에어비앤비 예약, 쇼핑, 정보 검색 등을 수행한 기록
62만 3,000개의 개별 하위 작업 — "검색창 클릭 → 텍스트 입력 → 버튼 클릭" 같은 단위 동작 하나하나를 기록
220만 개의 화면 인식 학습 데이터 — 400개 웹사이트에서 수집한 "이 버튼은 어디에 있나", "이 텍스트는 무슨 의미인가" 등의 질답 쌍
AI2는 이것이 "공개된 것 중 역대 최대 규모의 사람 웹 작업 데이터셋"이라고 밝혔습니다. 다른 연구자들이 이 데이터를 활용해 더 나은 웹 에이전트를 만들 수 있습니다.
MolmoWeb은 매 동작마다 "왜 이 버튼을 클릭하는지"를 자연어로 설명합니다. 투명한 의사결정 과정이 오픈소스의 장점입니다.
MolmoWeb 설치 방법 — 직접 돌려보기
Python 3.10 이상이 설치된 컴퓨터에서 직접 실행할 수 있습니다. GPU가 있으면 더 빠르지만, 4B 모델은 일반 컴퓨터에서도 동작합니다.
# 1. 저장소 클론
git clone https://github.com/allenai/molmoweb.git
cd molmoweb
# 2. 모델 가중치 다운로드 (8B 기본, 4B는 --model MolmoWeb-4B)
bash scripts/download_weights.sh
# 3. 모델 서버 실행 (포트 8001)
bash scripts/start_server.sh ./checkpoints/MolmoWeb-8B
# 4. 테스트
uv run python scripts/test_server.py
직접 설치하기 번거롭다면, AI2 공식 데모 사이트에서 바로 체험할 수 있습니다. 보안을 위해 로그인이나 결제 같은 민감한 작업은 자동으로 차단됩니다.
browser-use와 뭐가 다른가
최근 깃허브 스타 8만 2천을 찍은 browser-use와 비교하면 접근 방식이 근본적으로 다릅니다.
두 도구는 경쟁이 아니라 상호 보완 관계입니다. browser-use가 코드 기반으로 빠르고 정확하다면, MolmoWeb은 코드 접근이 어려운 사이트에서도 사람처럼 시각적으로 작동합니다.
AI2의 미래가 불안하다는 우려도
한 가지 주목할 점이 있습니다. MolmoWeb을 공개한 AI2는 최근 CEO인 알리 파르하디와 핵심 연구진이 마이크로소프트 초지능 팀으로 이직하면서 리더십 변동을 겪고 있습니다. 오픈소스 프로젝트의 지속적인 개발 속도에 영향을 줄 수 있다는 우려가 나옵니다.
하지만 코드, 데이터, 모델이 모두 Apache 2.0으로 공개된 만큼, 설령 AI2가 개발을 멈추더라도 커뮤니티가 이어갈 수 있습니다. 이것이 오픈소스의 힘입니다.
관련 콘텐츠 — 에이전틱 AI 완전 가이드 | Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기