2026-03-20AIAI 연구AutoresearchSkyPilotGPU자동화

내 AI에게 GPU 16개를 줬더니 혼자서 실험 910번을 하고 연구 전략까지 발명했습니다

AI 코딩 에이전트에 GPU 16개를 맡기고 8시간 방치했더니 실험 910번을 돌리고, 사람 연구원처럼 '싼 GPU로 먼저 검증, 비싼 GPU로 확인'하는 전략까지 스스로 만들었습니다. 비용은 약 40만 원.

AI에게 고성능 컴퓨터 16대를 주고 "알아서 실험해봐"라고 했더니, 사람이 3일 걸릴 일을 8시간에 끝내고 — 심지어 아무도 가르쳐주지 않은 '효율적인 연구 전략'까지 스스로 만들어냈습니다. 총 비용은 약 40만 원. 테슬라 AI 총괄 출신 안드레이 카파시가 만든 'Autoresearch' 기법을 GPU 클러스터(여러 대의 AI 전용 칩을 묶어서 쓰는 시스템)로 확장한 실험의 결과입니다.

AI 에이전트가 GPU 16대에 실험을 분배하고 결과를 수집하는 과정 다이어그램

AI가 혼자서 연구한다 — Autoresearch란

Autoresearch(자동 연구)는 테슬라 AI 총괄 출신 안드레이 카파시가 만든 방법입니다. 원리는 간단합니다. AI 코딩 에이전트에게 "이 코드를 최적화해봐"라고 시키면, AI가 혼자서 코드를 수정하고 → 실험을 돌리고 → 결과를 확인하고 → 다시 수정하는 과정을 반복합니다. 사람 연구원이 하루 종일 할 일을 AI가 대신하는 셈입니다.

카파시의 원래 실험에서는 컴퓨터 1대로 한 번에 하나씩 실험했습니다. 이번에 SkyPilot 연구팀은 "AI에게 컴퓨터를 16대 주면 어떻게 될까?"라는 질문을 던졌습니다.

8시간, 910번의 실험 — 무슨 일이 벌어졌나

연구팀은 Claude Code(AI 코딩 도우미)에게 H100 13대와 H200 3대, 총 16대의 AI 전용 칩을 연결해줬습니다. H100과 H200은 현재 AI 업계에서 가장 많이 쓰이는 엔비디아의 고성능 칩으로, H200이 더 비싸고 빠릅니다.

8시간 동안 벌어진 일 요약

AI가 혼자서 실험 약 910번을 제출 (유효 결과 약 700건)
시간당 90번 실험 — 컴퓨터 1대일 때(시간당 10번)보다 9배 빠름
AI 모델 성능이 기준점 대비 2.87% 향상 (1.003 → 0.974)
사람이 순차적으로 했으면 약 72시간(3일) 걸렸을 작업

698건의 실험 결과 산점도 — 회색 점은 개별 실험, 초록색 선은 최고 성능 추이

위 그래프에서 회색 점 하나하나가 AI가 돌린 개별 실험입니다. 초록색 선이 계속 내려가는 것은 AI가 점점 더 좋은 설정을 찾아가고 있다는 뜻입니다. 실험 약 500번째에서 개선폭이 줄어드는 것도 보이는데, 이는 AI가 더 이상 크게 개선할 여지가 없다는 것을 스스로 파악했기 때문입니다.

아무도 가르쳐주지 않은 전략을 발명했다

이 실험에서 가장 놀라운 발견은 숫자가 아닙니다. AI가 스스로 '2단계 실험 전략'을 만들어냈다는 것입니다.

AI는 H200이 같은 시간에 H100보다 약 9% 더 많은 작업을 처리한다는 사실을 스스로 알아냈습니다. 그러고는 아무도 시키지 않았는데 이런 전략을 세웠습니다:

1단계: 값이 싼 H100에서 여러 가설을 빠르게 검증한다
2단계: 유망한 후보만 골라서 비싼 H200에서 정밀 확인한다

이것은 사람 연구원이 예산을 효율적으로 쓰기 위해 의도적으로 설계하는 전략과 똑같습니다. AI가 비용 효율까지 고려한 연구 방법론을 자체적으로 개발한 것입니다. 연구팀도 "인간 연구자가 의도적으로 설계할 법한 전략"이라고 평가했습니다.

AI 코딩 에이전트가 SkyPilot을 통해 클라우드 GPU에 실험을 분배하는 구조도

AI가 찾아낸 5단계 최적화 과정

910번의 실험은 무작위가 아니었습니다. AI는 스스로 체계적인 단계를 밟았습니다:

1단계 — 기본 설정 탐색 (실험 200회)
학습 속도, 데이터 묶음 크기 등 기본 값을 이것저것 바꿔보며 최적 조합을 찾았습니다.

2단계 — 구조 실험 (실험 200회)
AI 모델의 형태(넓게 vs 깊게)를 6가지로 바꿔가며 "넓은 모델이 더 좋다"는 결론을 도출했습니다.

3~4단계 — 미세 조정 (실험 280회)
최적 조합을 소수점 단위로 세밀하게 조절했습니다.

5단계 — 수확 체감 확인 (실험 210회)
더 실험해도 개선폭이 0.0001 이하로 떨어지자, AI는 스스로 "이쯤이면 됐다"고 판단했습니다.

40만 원에 가능한 AI 연구 — 비용 분석

이 모든 과정의 비용은 놀라울 정도로 낮습니다:

AI 코딩 에이전트 비용 (Claude Code API): 약 9달러 (~1만 2천 원)
GPU 사용료 (H100 13대 + H200 3대, 8시간): 약 260달러 (~35만 원)
총 비용: 약 300달러 (약 40만 원)

대학 연구실에서 연구원 한 명이 3일간 같은 실험을 수동으로 하는 인건비를 생각하면, 이 비용은 파격적입니다. AI가 사람보다 9배 빠르게 일하면서 비용은 수십 분의 1인 셈입니다.

직접 따라하고 싶다면

이 실험에 사용된 SkyPilot(깃허브 스타 9,600개)은 오픈소스 도구입니다. AWS, GCP, Azure 등 20개 이상의 클라우드와 쿠버네티스(여러 서버를 한 번에 관리하는 시스템)를 지원합니다.

# SkyPilot 설치
pip install -U "skypilot[kubernetes,aws,gcp,azure]"

# Autoresearch 예제는 SkyPilot GitHub의 examples 폴더에 공개되어 있습니다

다만 GPU 사용료가 발생하므로, 클라우드 계정과 결제 수단이 필요합니다. H100 1대 기준 시간당 약 2~3달러 수준입니다.

"AI는 도구"에서 "AI는 동료 연구원"으로

이 실험이 보여주는 핵심은 단순히 "AI가 빠르다"는 것이 아닙니다. AI가 주어진 자원을 파악하고, 스스로 가장 효율적인 사용법을 고안했다는 점입니다. 싼 장비로 먼저 가능성을 검증하고, 비싼 장비로 확인하는 것은 경험 많은 연구원이 의식적으로 설계하는 전략입니다.

불과 며칠 전 쇼피파이 CEO가 공개한 Autoresearch 활용 사례에서는 컴퓨터 1대로 코드를 53% 빠르게 만들었습니다. 이번에는 컴퓨터 16대를 연결하자 양적 변화가 질적 변화로 바뀐 것입니다 — AI가 단순히 더 많은 실험을 한 게 아니라, 실험하는 '방법' 자체를 발명했습니다.

AI 연구자들은 이런 현상을 '창발적 행동(emergent behavior, 개별적으로는 없던 능력이 규모가 커지면서 갑자기 나타나는 현상)'이라고 부릅니다. 더 많은 자원을 줬을 때 AI가 어떤 새로운 능력을 보여줄지, 이 실험은 그 가능성을 보여주는 사례입니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독