2026-03-17LeanstralMistral AIAI 코드 검증형식 검증formal verification바이브코딩오픈소스 AILean 4

Leanstral: AI 코드를 수학으로 검증하는 무료 오픈소스, Claude 대비 15배 저렴

Mistral AI가 공개한 Leanstral은 AI가 짠 코드를 수학적으로 증명하는 형식 검증(formal verification) 전문 오픈소스 모델입니다. Claude Sonnet 대비 15배 저렴하면서 검증 점수는 더 높고, Apache 2...

바이브코딩으로 AI 코드를 만들어본 분이라면 한 번쯤 이런 불안감을 느껴보셨을 겁니다 — "AI가 짜준 이 코드, 진짜 제대로 돌아가는 걸까?" Mistral AI가 이 질문에 형식 검증(formal verification)이라는 수학적 증명 방식으로 답을 내놨습니다. 오늘 공개된 Leanstral은 AI 코드를 작성하면서 동시에 "이 코드가 올바르다"는 것을 논리적으로 증명해주는 세계 최초의 오픈소스 AI 코드 검증 모델입니다.

바이브코딩의 약점, AI 코드 검증을 형식 검증으로 자동화

바이브코딩(AI에게 말로 지시해서 코드를 만드는 방식)이 폭발적으로 성장하면서, 가장 큰 병목은 "사람이 AI가 짠 코드를 일일이 확인해야 한다"는 점이었습니다. AI가 코드를 5분 만에 짜줘도, 그게 맞는지 검증하는 데 1시간이 걸리면 생산성 향상이 반감됩니다. 바이브코딩이 처음이시라면 무료 학습 가이드에서 기초부터 확인할 수 있습니다.

Leanstral은 이 문제를 형식 검증(formal verification)이라는 방법으로 해결합니다. 쉽게 말하면, AI가 코드를 짜면서 동시에 "이 코드가 이런 조건에서는 반드시 이렇게 작동한다"는 수학적 증명서까지 함께 만들어주는 겁니다. 마치 건축가가 건물을 설계하면서 동시에 구조 안전 계산서를 제출하는 것과 비슷합니다.

Leanstral FLTEval 벤치마크 점수 비교 차트 — Mistral Leanstral이 오픈소스 AI 코드 검증 모델 중 가장 높은 점수를 기록한 결과

Leanstral 비용 비교 — 65억 파라미터로 Claude 대비 15배 절감

Leanstral의 가장 놀라운 점은 효율성입니다. 전체 모델은 1,190억 개의 매개변수(AI의 뉴런에 해당)를 갖고 있지만, 실제로 작동할 때는 65억 개만 활성화됩니다. 마치 회사의 전 직원 중 필요한 전문가 팀만 골라서 투입하는 것과 같습니다.

이 덕분에 비용 대비 성능이 압도적입니다:

모델	검증 점수(FLTEval)	비용
Claude Haiku	23.0점	$184
Claude Sonnet	23.7점	$549
Leanstral (2회 시도)	26.3점	$36
Claude Opus	39.6점	$1,650

Leanstral은 Claude Sonnet보다 15배 저렴하면서 검증 점수는 오히려 2.6점 더 높습니다. 최고 성능의 Claude Opus와 비교하면 점수는 낮지만, 비용은 46분의 1에 불과합니다. 특히 같은 비용을 투자하면 여러 번 시도할 수 있어서, 16회 시도 시 31.9점까지 올라갑니다.

오픈소스 AI 코드 검증 모델 비교 — Leanstral 독보적 1위

무료로 쓸 수 있는 오픈소스 모델끼리 비교하면 격차가 더 확실합니다:

• Leanstral (65억 활성 파라미터): 2회 시도 시 26.3점
• Qwen3.5 (170억 활성 파라미터): 4회 시도 시 25.4점
• Kimi-K2.5 (320억 활성 파라미터): 4회 시도 시 20.0점
• GLM5 (400억 활성 파라미터): 4회 시도 시 16.5점

경쟁 모델들보다 활성 파라미터가 3~6배 적으면서 성능은 오히려 앞섭니다. 작지만 정밀한 전문가가 큰 범용 팀을 이기는 셈입니다.

Leanstral 실전 활용 사례 — Lean 4 호환성 문제 자동 해결

Mistral은 Leanstral이 실제 프로젝트에서 활약한 사례를 공개했습니다. Stack Exchange에 올라온 Lean 4.29.0 호환성 문제를 Leanstral에게 맡겼더니, 학습 데이터에 없던 새 버전의 변경사항까지 파악해서 스스로 해결책을 찾아냈습니다.

현재 Leanstral이 처리할 수 있는 작업은 다음과 같습니다:

✓ 수학적 정리(theorem) 자동 증명

✓ 프로그램 명세 작성 및 검증

✓ 버전 업그레이드 호환성 처리

✓ 여러 파일에 걸친 코드 리팩토링

Leanstral 무료 사용법 — API, 설치, Mistral Vibe 3가지 방법

Leanstral은 세 가지 방법으로 사용할 수 있습니다:

① Mistral Vibe에서 바로 사용
Mistral의 코딩 도구인 Mistral Vibe에서 에이전트 모드로 전환한 뒤 /leanstral 명령어를 입력하면 됩니다. 별도 설치가 필요 없습니다.

② 무료 API로 직접 연동
모델 ID labs-leanstral-2603으로 API를 호출할 수 있습니다. 현재 한시적으로 완전 무료($0)로 제공 중입니다. 256K 토큰(소설 약 2권 분량)까지 한 번에 처리할 수 있습니다.

③ 내 컴퓨터에 직접 설치
Apache 2.0 라이선스(상업적 사용 포함 완전 자유)로 모델 가중치를 다운로드해서 자체 서버에서 운영할 수 있습니다.

해커뉴스 개발자 반응 — "진짜 오픈소스 AI 모델"

해커뉴스에서 232표를 받은 이 소식에 대한 개발자들의 반응은 엇갈렸습니다.

긍정적 반응: "오픈소스라고 말하면서 진짜 오픈소스인 건 요즘 드문 일"이라는 평가와 함께, 형식 검증이라는 접근법 자체에 대한 관심이 높았습니다. "AI 모델의 다양성이 필요하다"는 의견도 있었습니다.

회의적 반응: "정확성이 중요한 작업이라면 10배 싸다고 성능이 낮은 걸 쓸 이유가 있나?"라는 지적도 있었습니다. Claude Opus가 여전히 최고 점수(39.6점)를 기록하고 있어, 정말 중요한 검증에는 더 비싼 모델이 낫다는 의견입니다.

바이브코딩과 AI 코드 검증의 미래 — Leanstral이 여는 새 방향

Leanstral이 당장 모든 프로그래밍 언어의 코드를 검증해주는 것은 아닙니다. 현재는 Lean 4라는 수학적 증명 전문 언어에 특화되어 있습니다. 일반적인 파이썬이나 자바스크립트 코드를 바로 검증하지는 못합니다.

하지만 이 프로젝트가 보여주는 방향성이 중요합니다. "AI가 코드를 짜기만 하는 시대"에서 "AI가 코드를 짜고, 그 코드가 맞다는 것까지 증명하는 시대"로 넘어가는 첫걸음입니다. 금융, 의료, 항공처럼 한 줄의 버그가 큰 사고로 이어질 수 있는 분야에서 특히 주목받을 기술입니다.

Mistral은 이 기술을 기반으로 새로운 평가 기준인 FLTEval(실제 프로젝트의 PR(코드 변경 요청)을 얼마나 정확하게 검증하는지 측정하는 벤치마크)도 함께 공개해, 앞으로 다른 AI 모델들도 검증 능력을 비교할 수 있는 토대를 만들었습니다.

핵심 정리: Leanstral은 "AI가 짠 코드를 수학적으로 검증하는" 최초의 오픈소스 전문 모델입니다. Claude Sonnet 대비 15배 저렴하면서 검증 점수는 더 높고, 완전 무료로 공개되었습니다. 현재는 Lean 4 언어에 특화되어 있지만, '검증 가능한 바이브코딩'이라는 새로운 방향을 제시한 의미 있는 첫걸음입니다.

AI 코딩과 바이브코딩을 처음 시작하시는 분이라면 무료 학습 가이드에서 기초부터 단계별로 배울 수 있습니다.

관련 콘텐츠 — AI 도구 모음 | 무료 학습 가이드

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독