2026-03-17AI 코딩프로그래밍 언어벤치마크바이브코딩Elixir

AI 코딩 성적표 — 20개 언어 중 1등은 파이썬이 아니라 Elixir였습니다

AI에게 20개 프로그래밍 언어로 3920개 문제를 풀게 한 AutoCodeBench 벤치마크에서 학습 데이터가 적은 Elixir가 86.9%로 1위, 파이썬은 42.3%로 중하위권에 머물렀습니다.

AI에게 코딩을 시킬 때 어떤 프로그래밍 언어를 쓰느냐에 따라 정답률이 2배 이상 차이난다는 분석이 해커뉴스에서 화제가 되고 있습니다. 20개 프로그래밍 언어에 걸쳐 3,920개 문제를 테스트한 AutoCodeBench(AI 코딩 능력을 언어별로 비교하는 대규모 시험) 결과, 1등은 파이썬이 아니라 Elixir라는 상대적으로 덜 알려진 언어였습니다.

소프트웨어 엔지니어 그렉 올슨(Greg Olsen)이 이 데이터를 분석해 "Grace Hopper's Revenge"라는 글을 발표했습니다. "학습 데이터의 양보다 언어의 설계 구조가 AI 코딩 품질을 결정한다"는 그의 주장은 바이브코딩 시대에 언어 선택의 새로운 기준을 제시합니다.

파이썬이 중하위권? 20개 언어 AI 코딩 벤치마크의 반전

AutoCodeBench는 Claude Opus 4.1, GPT-5, Gemini 2.5 Pro, DeepSeek-V3 등 주요 AI 모델들에게 동일한 프로그래밍 문제를 20개 서로 다른 언어로 풀게 한 뒤 정답률(Pass@1)을 비교한 벤치마크입니다. 언어당 약 200개씩, 총 3,920개 문제가 출제됐습니다.

AutoCodeBench 20개 프로그래밍 언어별 AI 코딩 정답률 비교표 — Claude Opus, GPT-5, Gemini 등 주요 모델 포함

결과는 예상을 뒤엎었습니다. 가장 높은 점수를 받은 Claude Opus 4.1 기준으로 언어별 정답률을 보면:

AI가 가장 정확하게 코드를 짜는 언어 TOP 5

1위 — Elixir: 86.9%

2위 — C#: 78.4%

3위 — Kotlin: 74.5%

4위 — Racket: 73.0%

5위 — Ruby: 61.0%

하위권 — 파이썬: 42.3% · 자바스크립트: 42.9% · Rust: 39.2% · PHP: 31.2%

인터넷에서 가장 많이 사용되고, AI 학습에 활용된 코드 데이터도 가장 많은 파이썬과 자바스크립트가 오히려 낮은 점수를 기록했습니다. 또 하나 눈에 띄는 결과는 타입스크립트(47.7%)가 자바스크립트(42.9%)보다 약 5점 높았다는 점입니다. 같은 웹 개발 언어인데 타입(자료형을 미리 명시하는 기능)이 있는 쪽이 AI와 궁합이 더 좋았다는 뜻입니다.

올슨의 핵심 주장입니다: "학습 데이터의 양이 우리가 생각한 것만큼 중요하지 않다. 함수형 패러다임은 학습 데이터가 적어도 잘 전이된다."

AI는 왜 '깔끔한 규칙'이 있는 언어를 선호할까

AI가 높은 점수를 받은 언어들에는 공통된 특징이 있습니다. 전문 용어로는 '함수형 프로그래밍'이라 부르는데, 쉽게 말하면 규칙이 단순하고 예측 가능한 언어입니다.

데이터가 한번 만들어지면 바뀌지 않습니다 — 변수의 값이 중간에 몰래 바뀌면 AI가 "지금 이 값이 뭐지?"를 추적하기 어렵습니다. Elixir처럼 데이터가 불변(한번 정하면 바꿀 수 없는 방식)인 언어에서는 이 문제가 사라집니다.

함수(기능 단위)가 독립적입니다 — 같은 입력을 넣으면 항상 같은 결과가 나오는 '순수 함수' 구조라서, AI가 한 함수만 보고도 정확한 코드를 짤 수 있습니다. 다른 코드에서 무슨 일이 벌어지는지 신경 쓸 필요가 없습니다.

패턴 매칭이 있습니다 — "이 데이터가 A 형태면 이렇게 처리하고, B 형태면 저렇게 처리해"를 명확하게 표현할 수 있어서, AI가 경우의 수를 빠짐없이 처리합니다.

반면 자바스크립트(특히 웹 화면을 만드는 React를 쓸 때)는 AI에게 까다롭습니다. 화면 상태를 관리하는 useState, 화면 변화를 감지하는 useEffect, 화면이 나타나고 사라지는 생명주기 등 여러 층의 숨겨진 상태를 동시에 추적해야 하기 때문입니다.

올슨은 이렇게 표현합니다: "자바스크립트는 구조와 싸우고, Elixir는 구조와 함께 흐른다."

Rust(러스트)가 39.2%로 의외의 저조한 성적을 보인 것도 같은 맥락입니다. Rust는 타입 시스템이 매우 엄격한 언어지만, '소유권 검사기(borrow checker)'라는 메모리 관리 규칙이 코드 전체를 동시에 고려해야 하는 복잡한 추론을 요구합니다. AI가 '한 부분만 보고 정확하게 짜기' 어려운 구조입니다.

"사람이 코드를 쓰는 시대는 끝났다 — 이제는 검증하는 시대"

이 벤치마크 결과가 가리키는 더 큰 흐름이 있습니다. 올슨은 컴퓨터 과학의 유명한 격언을 이렇게 바꿔 씁니다:

기존: "프로그램은 사람이 읽기 위해 쓰여야 한다"

올슨의 수정: "프로그램은 사람이 검증하기 위해 쓰여야 한다. 실행은 부수적이다."

코드를 직접 타이핑하는 것은 AI의 몫이 되어가고 있습니다. 사람의 역할은 AI가 짠 코드가 맞는지 확인하고, 원하는 방향으로 이끄는 것으로 바뀌고 있습니다. Anthropic의 엔지니어들도 인정한 사실이 있습니다 — "Opus 4.5가 이제 신입 개발자보다 코딩 테스트를 더 잘 본다"고 합니다.

그렇다면 어떤 언어가 '검증하기 쉬운' 언어일까요? 함수형 언어입니다. 데이터가 중간에 바뀌지 않고, 함수마다 입출력이 명확하니, AI가 짠 코드를 사람이 훑어보면서 "이거 맞네/틀렸네"를 빠르게 판단할 수 있습니다.

글 제목의 '그레이스 호퍼'는 1950년대에 최초의 컴파일러(사람의 말을 기계어로 바꿔주는 프로그램)를 만든 미 해군 제독입니다. 그녀는 "영어로 명령하면 컴퓨터가 알아듣는 세상"을 꿈꿨는데, 70년이 지나 AI가 그 꿈을 실현하고 있습니다. 엔비디아가 자사의 AI 칩 아키텍처에 그녀의 이름(Hopper)을 붙인 것은 우연이 아닙니다.

바이브코딩할 때 언어 선택, 이렇게 달라질 수 있습니다

이 벤치마크가 "당장 파이썬을 버리고 Elixir를 배워라"는 뜻은 아닙니다. 파이썬의 방대한 라이브러리 생태계와 커뮤니티는 여전히 강력한 장점입니다. 하지만 AI와 함께 코딩하는 시대에 언어 선택의 기준이 달라지고 있다는 시사점은 분명합니다.

웹 개발자라면 — 자바스크립트 대신 타입스크립트를 쓰는 것만으로도 AI 코딩 정답률이 약 5점(11%) 올라갑니다. 비용 제로의 개선입니다.

새 프로젝트를 시작한다면 — Elixir(웹 개발: Phoenix 프레임워크), Kotlin(모바일 앱), C#(게임·기업용 앱) 등 AI 친화적 언어를 고려해볼 만합니다.

어떤 언어를 쓰든 — 변수를 자주 바꾸지 않고, 함수를 작고 독립적으로 만들고, 자료형을 명시하는 습관이 AI와의 협업 품질을 높입니다. 이것은 어떤 언어에서든 적용할 수 있는 원칙입니다.

올슨 자신도 매일 Claude Code로 Elixir 코드를 대량 생성하며 작업한다고 합니다. "구조가 단순하고 인터페이스가 명확하니, AI가 짠 코드를 검증하는 데 시간이 훨씬 적게 든다"는 것이 그의 실전 경험입니다.

1958년 존 매카시(John McCarthy)가 만든 Lisp부터 이어져 온 함수형 프로그래밍의 철학이, AI 시대를 만나 비로소 빛을 발하고 있습니다. 올슨의 표현을 빌리면, "그레이스 호퍼의 이름을 딴 칩이 그녀가 꿈꾼 세상을 마침내 보여주고 있다"는 것입니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독