Chandra OCR 2 — 손글씨·표·수식 인식 정확도 85.9%, GPT-4o를 23% 앞선 무료 오픈소스
손글씨, 복잡한 표, 수학 공식까지 정확도 85.9%로 변환하는 오픈소스 OCR AI Chandra 2. GPT-4o(69.9%)를 23% 앞서며 90개 언어를 지원합니다. pip 한 줄이면 내 PC에서 무료로 바로 사용할 수 있습니다.
스캔한 문서, 손으로 쓴 메모, 복잡한 표가 담긴 PDF — 이런 파일을 텍스트로 바꿔야 할 때 ChatGPT나 Gemini에게 맡기면 어떤 결과가 나올까요? 정확도 63~69%입니다. 표의 셀이 뒤섞이고, 손글씨는 절반만 인식되고, 수학 공식은 아예 깨집니다.
Chandra OCR 2는 이 문제를 정면으로 해결한 오픈소스 AI OCR 모델입니다. 문서 인식 정확도 85.9%로, GPT-4o(69.9%)를 23% 앞서고 Gemini Flash 2(63.8%)의 1.3배에 달합니다. 깃허브 스타 5,100개를 돌파하며 오늘 GitHub Trending에 올랐습니다.
손글씨 수학 공식도 깨끗하게 텍스트 변환
Chandra OCR 2가 가장 인상적인 부분은 손글씨 인식(Handwriting Recognition)입니다. 아래 이미지를 보면, 대학 강의 중 손으로 적은 이중적분(Double Integrals) 노트를 Chandra에 넣었을 때 수학 공식, 도형, 텍스트가 모두 정확하게 변환된 것을 확인할 수 있습니다.
이런 작업은 기존 AI 모델들이 특히 어려워하는 영역입니다. GPT-4o는 손글씨 수학 공식에서 69.9% 정확도를 보이지만, Chandra 2는 같은 조건에서 85.9%를 기록합니다.
복잡한 표(Table) 인식 — 셀 하나 빠뜨리지 않습니다
업무에서 가장 흔하게 마주치는 문제 — 스캔한 PDF 속 복잡한 표를 엑셀로 옮기는 작업입니다. Chandra는 정규분포표처럼 수백 개 숫자가 빼곡한 표도 정확하게 인식합니다.
변환 결과를 HTML, Markdown, JSON 세 가지 형식으로 출력할 수 있어서, 엑셀에 붙여넣기하거나 다른 프로그램에서 바로 활용할 수 있습니다. 평소 AI 엑셀 자동화에 관심 있었다면 Chandra와 함께 사용하면 PDF에서 엑셀까지 전 과정을 자동화할 수 있습니다.
90개 언어 지원 — 한국어, 아랍어, 일본어까지
다국어 벤치마크(43개 언어 테스트)에서도 Chandra 2는 77.8%로 1위를 기록했습니다. GPT-5 Mini(60.5%)보다 28% 높고, Gemini 2.5 Flash(67.6%)도 넘어섰습니다. 한국어, 아랍어, 일본어, 힌디어 등 90개 이상 언어를 지원합니다.
내 컴퓨터에서 Chandra OCR 2 설치하고 바로 써보기
설치는 간단합니다. Python이 설치되어 있다면 터미널에 한 줄만 입력하면 됩니다.
pip install chandra-ocr
설치 후 Python에서 이렇게 사용합니다.
from chandra_ocr import ocr
# PDF나 이미지 파일을 텍스트로 변환
result = ocr("my_document.pdf")
print(result)
코딩 없이 바로 사용하고 싶다면 Datalab 웹 플레이그라운드에서 파일을 업로드해서 무료로 테스트할 수 있습니다. Python 환경 세팅이 처음이라면 AI 도구 세팅 가이드를 먼저 참고하세요.
어떤 사람에게 유용할까
사무직/연구자 — 스캔한 계약서, 보고서, 논문 PDF를 텍스트로 변환해서 검색하거나 편집할 수 있습니다. 특히 표가 많은 재무제표나 통계 자료에 강합니다.
학생 — 손글씨 강의 노트를 찍어서 디지털 텍스트로 정리할 수 있습니다. 수학 공식도 LaTeX 형태로 변환되어, 과제 작성에 바로 활용 가능합니다.
개발자 — Apache 2.0 라이선스(코드)로 자유롭게 사용 가능하고, vLLM 또는 HuggingFace 추론을 지원합니다. NVIDIA H100 기준 초당 약 1.44페이지를 처리합니다.
경쟁 OCR 모델과 정확도 한눈에 비교
Chandra OCR 2가 주목받는 이유
문서 인식(OCR) 분야는 오랫동안 유료 서비스가 지배해왔습니다. Adobe Acrobat Pro, ABBYY FineReader 같은 도구는 연간 수십만 원의 구독료가 필요하고, ChatGPT나 Gemini로 대체하자니 정확도가 부족했습니다.
Chandra 2는 오픈소스이면서도 유료 모델을 능가하는 정확도를 달성한 첫 사례입니다. 특히 복잡한 표, 손글씨, 수학 공식 — 기존 AI가 가장 약한 세 가지 영역에서 강점을 보입니다. Datalab이라는 회사가 상용 API도 함께 운영하고 있어서 지속적인 업데이트가 기대됩니다.
자주 묻는 질문
Q. Chandra OCR 2는 완전 무료인가요?
A. 네, 코드는 Apache 2.0 라이선스로 무료입니다. 모델 가중치는 CC-BY-NC-SA 라이선스로, 비상업적 용도는 무료이고 상업적 용도는 Datalab의 API를 이용하면 됩니다.
Q. GPU 없이도 사용할 수 있나요?
A. CPU에서도 실행 가능하지만 속도가 느립니다. 빠른 처리가 필요하다면 GPU 환경을 권장하며, GPU가 없다면 Datalab 웹 플레이그라운드에서 무료로 테스트할 수 있습니다.
문서를 많이 다루는 업무를 하고 있다면, GitHub 저장소에서 예제를 확인하거나 웹 플레이그라운드에서 직접 테스트해보시기 바랍니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기