AI에게 120번 실험 시켰더니 코드가 53% 빨라졌습니다 — 쇼피파이 CEO가 쓴 오픈소스 방법
쇼피파이 CEO 토비아스 뤼트케가 AI 에이전트에게 120번 자동 실험을 시켜 Liquid 엔진 속도를 53% 높이고 메모리를 61% 줄였습니다. 카파시의 오픈소스 autoresearch 기반입니다.
- 쇼피파이 CEO 토비아스 뤼트케가 AI 에이전트에게 120번 자동 실험을 시켜 자사 핵심 코드의 속도를 53% 향상시켰습니다
- 메모리 사용량은 61% 감소, 기존 테스트 974개 전부 통과 — 버그 없이 성능만 끌어올렸습니다
- 테슬라 AI 총괄 출신 카파시가 만든 오픈소스 도구 autoresearch(깃허브 스타 4만 1천)를 기반으로 한 방법입니다
100조 원 기업의 CEO가 직접 AI로 코드를 고쳤습니다
쇼피파이(Shopify)는 전 세계 수백만 온라인 쇼핑몰이 사용하는 이커머스 플랫폼입니다. 그런데 이 회사의 CEO 토비아스 뤼트케가 직접 코드를 짰습니다. 그것도 AI를 조수로 쓰면서요.
뤼트케가 최적화한 것은 Liquid라는 템플릿 엔진(웹페이지의 디자인과 데이터를 연결해주는 기술)입니다. 깃허브 스타 1만 1,700개, 160만 개 프로젝트가 사용하는 핵심 기술이죠. 이 엔진이 빨라지면 전 세계 수백만 쇼핑몰의 페이지 로딩 속도가 함께 빨라집니다.
결과는 놀라웠습니다.
| 측정 항목 | 변경 전 | 변경 후 | 개선율 |
|---|---|---|---|
| 파싱+렌더링 시간 | 7,469μs | 3,534μs | -53% |
| 파싱 시간 | 6,031μs | 2,353μs | -61% |
| 렌더링 시간 | 1,438μs | 1,146μs | -20% |
| 메모리 할당 횟수 | 62,620회 | 24,530회 | -61% |
가장 인상적인 부분은 기존 테스트 974개가 전부 통과했다는 것입니다. 아무것도 망가뜨리지 않고 속도만 끌어올렸습니다.
AI가 실험하고, 사람은 결과만 확인합니다
뤼트케가 사용한 방법은 autoresearch라는 오픈소스 도구에서 영감을 받은 것입니다. 이 도구는 테슬라에서 AI를 총괄했던 안드레이 카파시(Andrej Karpathy)가 만들었고, 깃허브에서 4만 1,800개의 스타를 받았습니다.
원리는 단순합니다.
① AI가 코드를 수정합니다
② 자동으로 테스트를 실행합니다 — 실패하면 수정 사항을 버립니다
③ 테스트를 통과하면 성능을 측정합니다
④ 성능이 올랐으면 유지, 떨어졌으면 폐기합니다
⑤ ①번으로 돌아가 다음 실험을 시작합니다
이 과정을 사람 개입 없이 수십~수백 번 반복합니다.
▲ 카파시의 autoresearch 실험 그래프. 초록색 점은 성능이 올라서 유지한 실험, 회색 점은 폐기한 실험입니다. 약 80번의 실험 중 15번만 실제로 채택됐습니다. (출처: GitHub)
카파시의 원본은 AI 모델 훈련 전용이지만, 뤼트케는 이 아이디어를 일반 소프트웨어 최적화에 적용했습니다. AI 에이전트 Pi와 함께 pi-autoresearch라는 플러그인을 만들어, Liquid 코드에 대해 120번의 자동 실험을 돌렸습니다.
120번 실험 — 무엇이 성공하고 무엇이 실패했나
93개의 커밋이 만들어졌고, 그 안에는 성공한 최적화와 실패한 시도가 모두 기록되어 있습니다.
효과가 컸던 최적화 3가지
AI가 시도했지만 실패한 것들
흥미로운 것은 실패한 시도도 기록으로 남겼다는 점입니다. 사람이라면 실패를 숨기고 싶겠지만, AI는 감정 없이 모든 것을 기록합니다.
- 태그 이름 해싱 — 이론상 빨라야 했지만, 충돌 처리 비용이 이득을 상쇄했습니다
- 공유 캐시 도입 — 파싱 사이에 정보가 섞여서 메모리가 무한히 늘어나는 문제가 생겼습니다
- 조건문 전용 클래스 — Ruby 런타임의 내부 최적화와 충돌해서 오히려 느려졌습니다
사람이 했다면 이런 시도를 하나씩 해보고 결과를 분석하는 데 며칠에서 몇 주가 걸렸을 것입니다. AI는 이 과정을 자동으로, 쉬지 않고 처리했습니다.
내 프로젝트에 적용하려면 — 3가지 조건
카파시의 autoresearch를 직접 사용해보고 싶다면 깃허브 저장소에서 시작할 수 있습니다.
# autoresearch 설치
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch
pip install -r requirements.txt
다만 카파시의 원본은 AI 모델 훈련 전용입니다. 뤼트케처럼 일반 코드 최적화에 적용하려면 핵심 조건 세 가지가 필요합니다.
- 탄탄한 테스트 — 쇼피파이에는 974개의 테스트가 있었습니다. AI가 코드를 자유롭게 바꿔도 테스트가 '이건 망가졌어'라고 즉시 알려줍니다
- 측정 가능한 성능 지표 — '빠른 것 같다'가 아니라 마이크로초(μs) 단위로 측정할 벤치마크가 필요합니다
- 자동화 스크립트 — 테스트 실행 → 벤치마크 측정 → 결과 기록을 사람 없이 반복할 수 있어야 합니다
개발자가 아니더라도 이 사례에서 가져갈 핵심 교훈이 있습니다. AI에게 일을 시킬 때 '결과를 측정하는 방법'을 먼저 만들어두면, AI가 스스로 시행착오를 반복하면서 최적의 답을 찾아간다는 것입니다. 이 원리는 코드뿐 아니라 마케팅 카피, 이메일 제목, 디자인 시안 등 '성과를 숫자로 측정할 수 있는 모든 업무'에 응용할 수 있습니다.
CEO가 직접 코드를 짜는 시대
이 사례가 흥미로운 이유는 기술 자체보다 문화적 변화에 있습니다. 쇼피파이는 시가총액 100조 원이 넘는 대기업입니다. 그 CEO가 직접 코드 변경 요청(PR)을 올렸고, 29개의 반응(👍 17, ❤️ 4, 🚀 8)을 받았습니다.
AI 도구가 발전하면서, 코드를 직접 다루는 것의 진입장벽이 낮아지고 있습니다. 뤼트케는 프로그래밍 경험이 있는 CEO이지만, AI 에이전트가 반복 실험을 자동으로 처리해주면서 한 사람이 낼 수 있는 결과의 크기가 달라졌습니다.
사이먼 윌리슨은 이 사례를 소개하면서 "탄탄한 테스트 스위트가 AI 기반 최적화를 가능하게 하고, 고위 경영진도 코드베이스에 의미 있는 기여를 할 수 있게 해준다"고 평가했습니다. 전체 PR과 93개 커밋은 GitHub에서 공개되어 있습니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기
출처