말 한마디로 웹사이트를 조종한다 — 알리바바 Page Agent, 코드 없이 클릭·입력·검색 자동화
웹페이지에 코드 한 줄 넣으면 AI가 사람 대신 버튼을 누르고 양식을 채웁니다. 알리바바가 만든 Page Agent, 스크린샷 없이 텍스트만으로 작동해 빠르고 가볍습니다. 깃허브 스타 1만 700.
"로그인 버튼 눌러줘", "검색창에 '오늘 날씨' 입력해줘", "세 번째 상품 장바구니에 담아줘" — 이런 말을 하면 AI가 실제로 웹페이지에서 해당 동작을 수행합니다. 알리바바가 만든 오픈소스 프로젝트 Page Agent가 바로 그 도구입니다. 일주일 만에 깃허브 스타 7천 개가 늘어 총 1만 700개를 돌파했습니다.
• 웹페이지 안에서 직접 동작하는 AI 자동화 도구 — 별도 앱이나 확장 프로그램 없이 사용 가능
• 스크린샷을 찍지 않고 페이지의 텍스트 구조만 읽어서 동작 → 빠르고 가볍다
• "버튼 눌러줘", "양식 채워줘" 같은 자연어 명령으로 웹사이트 조작
• MIT 라이선스 무료 오픈소스, 기여자 749명의 커밋
기존 웹 자동화 도구와 뭐가 다른가
웹사이트를 자동으로 조작하는 도구는 이전에도 있었습니다. 셀레니움(Selenium), 플레이라이트(Playwright) 같은 도구는 개발자가 코드를 직접 작성해야 했습니다. 최근 나온 AI 기반 도구들(Browser Use 등)은 화면을 스크린샷으로 찍어서 AI가 분석하는 방식이라 느리고, 이미지를 이해하는 고급 AI 모델이 필요했습니다.
Page Agent는 다릅니다. 스크린샷을 찍지 않습니다. 대신 웹페이지의 HTML 구조(DOM)를 텍스트로 읽고, 그 텍스트를 AI에게 전달합니다. AI는 "로그인 버튼이 여기 있으니 이걸 클릭하면 되겠구나"라고 판단하고 실행합니다.
이 방식의 장점은 세 가지입니다:
- 빠릅니다 — 스크린샷을 찍고 이미지를 분석하는 시간이 없습니다
- 가볍습니다 — 이미지 인식 AI(멀티모달 모델)가 필요 없어 비용이 적습니다
- 정확합니다 — 텍스트 기반이라 버튼 위치를 정확히 찾아냅니다
어떻게 사용하나
가장 간단한 방법은 웹페이지에 코드 한 줄을 넣는 것입니다:
<script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.9/dist/iife/page-agent.demo.js"></script>
이렇게 하면 웹페이지에 AI 자동화 기능이 바로 추가됩니다. 본격적으로 활용하려면 npm으로 설치할 수도 있습니다:
# npm으로 설치
npm install page-agent
# 코드에서 사용
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus', // 사용할 AI 모델
apiKey: 'YOUR_API_KEY', // AI 서비스 API 키
language: 'ko-KR' // 한국어 지원
})
// 자연어로 명령
await agent.execute('로그인 버튼을 클릭해줘')
await agent.execute('검색창에 오늘 날씨를 입력하고 검색 버튼을 눌러줘')
크롬 확장 프로그램도 제공하는데, 이를 사용하면 여러 탭을 넘나들며 복잡한 작업을 자동화할 수 있습니다.
실제로 어디에 쓸 수 있나
업무 자동화
매일 반복하는 웹 작업을 자동화할 수 있습니다. ERP(전사적 자원 관리) 시스템에서 데이터 입력, CRM(고객 관리 시스템)에서 고객 정보 검색, 사내 시스템에서 결재 처리 등 복잡한 양식을 채우는 작업에 특히 효과적입니다.
자기 제품에 AI 비서 넣기
SaaS(클라우드 서비스) 개발자라면 자기 제품 안에 AI 도우미를 넣을 수 있습니다. 사용자가 "사용법을 모르겠어"라고 말하면, AI가 직접 버튼을 가리키며 안내해주는 식입니다. 별도 백엔드(서버) 개발 없이 프론트엔드(화면)에서만 작동합니다.
접근성 향상
시각장애인이 음성으로 웹사이트를 조작할 수 있게 해줍니다. "다음 기사로 넘어가줘", "메뉴 열어줘" 같은 음성 명령을 Page Agent가 실행합니다.
제약 사항과 보안
Page Agent는 브라우저 안에서만 작동합니다. 운영체제 수준의 제어(파일 열기, 다른 프로그램 실행)는 할 수 없습니다. 또한 AI 모델의 API 키가 필요하므로, 공개 웹사이트에 사용할 때는 API 키 노출에 주의해야 합니다.
알리바바의 Qwen 모델뿐 아니라 OpenAI, Anthropic 등 다른 AI 서비스와도 연동할 수 있어, 이미 사용 중인 AI 서비스가 있다면 그대로 활용 가능합니다.
프로젝트는 GitHub에서 MIT 라이선스로 공개되어 있고, 온라인 데모에서 직접 체험해볼 수 있습니다. 타이프스크립트로 작성됐으며, 코드의 81.3%가 타이프스크립트입니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기