2026-03-24Claude CodeAI 자동화클로드 코드AutoresearchAI 코딩머신러닝 자동화AI 연구에이전틱 AI

Claude Code 자동 연구 — AI가 토요일 하루 42번 실험해 성능 54% 향상

Claude Code가 하루 동안 42번 실험을 자동 반복해 비전-언어 모델 성능을 54% 향상시킨 AI 자동 연구 실험. 핵심은 사람이 놓쳤던 버그를 AI가 첫 실험에서 잡아낸 것. Autoresearch 전체 코드 GitHub 공개.

해커뉴스에서 244표를 받은 이 실험이 보여주는 건 단순합니다. Claude Code를 활용한 AI 자동화 연구(Autoresearch)로, 묵혀둔 옛 연구 코드를 건네주고 "성능을 올려봐"라고 시켰더니 토요일 하루 동안 GPU 한 대로 42번의 실험을 혼자 반복하면서 성능을 54% 끌어올렸습니다. 가장 큰 성과는 새로운 기술이 아니라 사람이 놓친 버그를 첫 실험에서 찾아낸 것이었습니다.

토요일 하루, GPU 한 대의 자동 연구

개발자 Yash Kumar는 예전에 만들어두고 방치했던 비전-언어 모델(이미지와 텍스트를 함께 이해하는 AI) 연구 코드 eCLIP을 꺼냈습니다. 테슬라 AI 출신 카파시(Andrej Karpathy)가 제안한 'Autoresearch'(자동 연구) 방법론을 적용해서, Claude Code에게 이렇게 지시했습니다.

규칙은 간단합니다
• AI는 학습 코드 파일(train.py)만 수정할 수 있습니다
• 실험을 돌려서 성능이 오르면 저장, 내리면 되돌리기
• 인터넷 접속 금지, 새 프로그램 설치 금지
• 실험 하나당 약 3분 (GPU: RTX 4090 한 대)

Autoresearch 에이전트 루프 — Claude Code가 코드를 수정하고 실험을 돌리고 결과를 판단하는 AI 자동화 반복 과정

첫 실험에서 가장 큰 발견이 나왔다

Claude Code가 코드를 처음 분석했을 때, 사람이 놓친 버그를 즉시 발견했습니다. 온도 파라미터(AI 모델이 얼마나 자유롭게 답을 고를지 조절하는 값)에 상한선이 2로 잘못 고정되어 있었는데, AI가 이 제한을 풀어주자 성능 지표가 한 번에 113포인트 급등했습니다.

전체 54% 향상 중 약 60%가 이 버그 수정 한 번에서 나왔습니다. 새로운 모델 구조를 시도하거나 혁신적 아이디어를 적용한 것보다, 기존 코드의 실수를 찾아 고치는 게 압도적으로 효과적이었습니다.

eCLIP Autoresearch 진행 그래프 — 42번의 실험을 거치며 성능이 점진적으로 향상되는 과정

42번의 실험, 13번의 성공

하루 동안 AI는 총 42번의 실험을 자동으로 실행했습니다.

구분	전	후	변화
성능 지표 (Mean Rank)	344.68	157.43	54% 향상
성공한 실험	—	13건	31%
되돌린 실험	—	29건	69%

성과의 원천을 분석하면 패턴이 보입니다.

버그 수정: 113포인트 향상 — 가장 큰 기여, 전체의 약 60%
수치 조정(학습 속도, 데이터 크기 등): 약 30포인트 추가 향상
모델 구조 변경(새 기능 추가, 내부 크기 변경 등): 미미한 효과, 대부분 실패
완전히 새로운 아이디어: 성공률 극히 낮음

AI 자동 연구가 잘 되는 경우, 안 되는 경우

저자의 결론은 명확합니다. 이처럼 AI가 목표를 스스로 판단하고 반복 실행하는 구조는 에이전틱 AI(Agentic AI)의 핵심 개념으로, 탐색 범위가 명확히 정의될수록 강력한 효과를 발휘합니다.

잘 되는 경우: 탐색 범위가 명확할 때입니다. 버그 찾기, 수치 조정처럼 "이 안에서 최적값을 찾아라"는 문제에 AI 자동 연구는 놀라울 정도로 효과적입니다. 저자의 표현을 빌리면, "탐색 공간이 명확히 정의되면, 저장-되돌리기 루프는 놀랄 만큼 효과적인 탐색 전략"입니다.

안 되는 경우: "전혀 새로운 것을 시도해봐"라는 열린 문제에서는 AI가 갈피를 못 잡습니다. "미지의 미지(unknown unknowns) 영역에 들어가자 최적화 루프가 폭발했다"고 합니다. 혁신은 여전히 사람의 몫입니다.

Claude Code Autoresearch 직접 해보는 방법

전체 코드는 GitHub에 공개되어 있습니다. 필요한 것은 GPU 한 대(RTX 4090 수준)와 Claude Code 구독입니다.

# 저장소 클론
git clone https://github.com/ykumards/eCLIP.git
cd eCLIP/autoresearch

# Docker 컨테이너에서 실험 시작
./start.sh

핵심은 AI가 수정할 수 있는 파일을 제한하고(한 파일만 수정 가능), "성능이 오르면 유지, 내리면 되돌리기"라는 단순한 규칙을 반복시키는 것입니다. 이 구조만 갖추면 자기 연구에도 적용할 수 있습니다. Claude Code를 처음 접한다면 Claude Code 핵심 기능 가이드에서 기본 설정부터 실전 활용까지 단계별로 확인할 수 있습니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독