GPT-4o 문서 인식 정확도가 70%인데 이 무료 AI는 86%입니다 — Chandra 2
Chandra 2가 olmOCR 벤치마크에서 85.9%로 GPT-4o(69.9%)를 16%p 앞섰습니다. 손글씨, 표, 수식, 90개 언어를 인식하는 무료 오픈소스 OCR로 pip 한 줄이면 설치됩니다.
사진을 찍어 문서를 디지털로 바꿔야 할 때, 보통 ChatGPT에 사진을 보냅니다. 하지만 복잡한 표나 손글씨 앞에서는 정확도가 뚝 떨어집니다. GPT-4o의 문서 인식 정확도는 69.9%입니다. 그런데 3월 18일에 공개된 무료 오픈소스 도구 Chandra 2는 같은 벤치마크에서 85.9%를 기록했습니다. 16%p 차이 — ChatGPT에 사진을 보내는 것보다 이 도구를 쓰는 것이 훨씬 정확합니다.
Chandra 2는 문서 사진이나 PDF를 넣으면 HTML, 마크다운, JSON 등 구조화된 디지털 문서로 변환해주는 AI OCR(사진 속 글자를 인식해서 텍스트로 변환하는 기술) 도구입니다. 공개 이후 GitHub에서 하루 546개 스타를 받으며 급부상하고 있고, 총 5,600개 스타를 넘었습니다.
GPT-4o보다 16%p 높은 정확도의 비밀
문서 인식 분야의 표준 벤치마크인 olmOCR에서 Chandra 2는 85.9%를 기록했습니다.
olmOCR 벤치마크 주요 결과
비결은 모델 경량화입니다. 이전 버전(Chandra 1)은 90억 개 파라미터(AI 모델의 크기를 나타내는 단위)를 사용했는데, Chandra 2는 40억 개로 절반 넘게 줄이면서 오히려 정확도를 83.1%에서 85.9%로 끌어올렸습니다. 처리 속도는 2배로 빨라졌습니다. 모델이 가벼워진 덕분에 일반 GPU에서도 충분히 돌릴 수 있게 되었습니다.
손글씨 노트가 깨끗한 디지털 문서가 됩니다
강의 노트를 손으로 적은 뒤 사진을 찍어 Chandra 2에 넣으면, AI가 필기체를 인식해 깔끔한 텍스트로 변환합니다.
위 이미지는 손으로 적은 주기율표 노트(왼쪽)가 구조화된 디지털 문서(오른쪽)로 바뀐 예시입니다. 제목, 소제목, 본문의 구조까지 자동으로 파악해서 깔끔하게 정리해줍니다. 단순히 글자만 읽는 수준이 아니라, 문서의 논리적 흐름을 이해합니다.
공문서 양식까지 읽어냅니다
체크박스가 있는 공문서, 서명란, 손글씨로 기입된 내용까지 모두 추출합니다. 관공서에서 받은 종이 서류, 계약서, 신청서를 디지털로 보관하고 싶을 때 사진 한 장이면 됩니다.
복잡한 표도 레이아웃 그대로
통계표처럼 칸이 빽빽한 표도 레이아웃을 그대로 유지하면서 인식합니다. 표 안의 숫자 하나하나를 정확히 읽는 것은 물론, 표 구조 자체를 HTML 테이블로 변환합니다. 엑셀이나 구글 시트에 바로 붙여넣을 수 있습니다.
수학 공식, 화학식, 90개 언어까지 인식하는 범위
Chandra 2는 단순 텍스트를 넘어서 전문적인 기호까지 처리합니다.
손으로 적은 수식도 LaTeX(수학 전용 문서 형식)로 변환
분자 구조를 인식해서 텍스트로 추출
그래프 안의 데이터를 숫자로 추출
한국어, 일본어, 아랍어, 힌디어 등
다국어 지원이 특히 강력합니다. 43개 주요 언어에서 평균 77.8%, 90개 언어로 확장하면 72.7%입니다. Gemini Flash의 43개 언어 평균(67.6%)보다 10.2%p 높습니다. 15가지 이상의 레이아웃 블록(제목, 본문, 표, 그림, 캡션 등)을 자동으로 구분하기 때문에, 단순히 글자만 읽는 것이 아니라 문서의 구조 전체를 이해합니다.
내 컴퓨터에서 3분이면 설치 끝
터미널에서 한 줄이면 설치됩니다.
# 기본 설치
pip install chandra-ocr
# GPU에서 직접 실행하려면
pip install chandra-ocr[hf]
PDF나 이미지 파일을 변환하는 것도 한 줄입니다.
# PDF를 마크다운으로 변환
chandra input.pdf ./output --method hf
# 폴더 안의 모든 문서를 한번에 변환
chandra ./documents ./output --method hf
명령어가 어렵게 느껴진다면 웹 UI도 있습니다. 아래 명령어를 실행하면 브라우저에서 파일을 끌어다 놓기만 하면 됩니다.
# 웹 브라우저 UI 실행
chandra_app
GPU가 없어도 괜찮습니다. vLLM 서버 모드를 사용하면 원격 GPU에서 처리할 수 있고, Datalab의 API를 통해 클라우드에서도 사용할 수 있습니다.
학생은 노트 정리, 회계사는 표 추출, 연구자는 논문 데이터
코드는 Apache 2.0 라이선스로 무료 공개되어 있습니다. 모델은 연구 및 개인 용도 무료이며, 연매출 200만 달러(약 27억 원) 미만 스타트업도 무료로 사용할 수 있습니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기