내 노트북에서 돌아가는 40억 파라미터 AI — 엔비디아 Nemotron 3 Nano 4B 오픈소스 공개
엔비디아가 9B 모델을 절반으로 압축한 4B 경량 AI 모델 Nemotron 3 Nano 4B를 오픈소스로 공개했습니다. RTX 4070에서 실행 가능하고, 수학 벤치마크 95.4점, 동급 대비 허위 응답 30% 감소 등 소형 모델 최고 성능을 기록했습니다.
엔비디아가 내 컴퓨터에서 바로 돌릴 수 있는 경량 AI 모델을 무료로 공개했습니다. Nemotron 3 Nano 4B는 40억 개의 파라미터(AI가 학습한 지식의 단위)를 가진 소형 모델이지만, 지시를 따르는 능력과 수학 문제 풀이에서 같은 크기 모델 중 최고 점수를 기록했습니다. 클라우드 없이 내 PC에서 AI를 돌리고 싶은 분들에게 가장 현실적인 선택지가 됩니다.
• 90억 파라미터 모델을 40억으로 압축하고도 정확도 100% 유지
• 수학 문제 정답률 95.4%, 허위 응답 테스트에서 경쟁 모델 대비 30% 우수
• RTX 4070 그래픽카드면 충분, 8GB 메모리 소형 보드에서도 초당 18단어 생성
9B를 4B로 줄였는데 성능은 그대로 — 어떻게 가능할까
Nemotron 3 Nano 4B는 엔비디아의 기존 모델인 Nemotron Nano 9B v2에서 출발합니다. Nemotron Elastic이라는 압축 기술로 90억 개의 파라미터를 40억 개로 줄였습니다. 단순히 잘라낸 것이 아니라, AI가 스스로 "어떤 부분을 남기고 어떤 부분을 줄일지"를 학습해서 결정하는 방식입니다.
압축 결과를 보면 놀랍습니다. 56개였던 레이어(AI의 사고 단계)를 42개로 25% 줄이고, 핵심 차원도 30% 축소했지만, 4비트 양자화(모델을 더 가볍게 만드는 기술) 상태에서도 원본 대비 정확도 100%를 유지합니다.
▲ Nemotron 3 Nano 4B의 훈련 과정: 9B 모델 압축 → 미세 조정 2단계 → 강화 학습 3단계를 거쳐 완성됩니다
동급 최강 — Qwen3.5-4B와 벤치마크 비교
같은 40억 파라미터 급인 Qwen3.5-4B와 비교한 공식 벤치마크 결과입니다.
• IFBench(지시 수행 능력): 43.2 vs 33.2 — Nemotron이 30% 앞섬
• IFEval(지시 평가): 85.4 vs 84.8 — 근소한 차이로 Nemotron 승
• HaluEval(허위 응답 검출): 62.2 vs 47.8 — Nemotron이 30% 우수
• Orak(게임 AI 지능): 22.9 vs 21.3 — Nemotron 승
• BFCL v3(도구 호출): 61.1 vs 63.9 — 이 항목만 Qwen 승
특히 추론 모드(AI가 단계별로 생각하는 기능)를 켜면 수학 문제(MATH500)에서 95.4점, 고난도 수학 대회 문제(AIME25)에서 78.5점을 기록합니다. 40억 파라미터 모델이 이 정도 수학 성적을 내는 것은 이례적입니다.
내 컴퓨터에서 실제로 돌릴 수 있을까
RTX 4070 그래픽카드만 있으면 됩니다. 이 모델은 처음부터 "클라우드가 아닌 내 기기에서 돌리는 것"을 목표로 설계됐습니다.
• RTX 4070 — 4비트 양자화로 부드러운 대화 가능
• Jetson Orin Nano 8GB(소형 AI 보드) — 초당 18단어 생성, 9B 모델 대비 2배 빠름
• DGX Spark / Jetson Thor — FP8 양자화로 지연시간과 처리량 1.8배 개선
• 최대 컨텍스트 — 26만 2천 토큰(소설 약 1.5권 분량)을 한 번에 처리
개인정보가 외부로 나가지 않는다는 점도 큰 장점입니다. 회사 내부 문서를 AI에게 분석시키고 싶지만 클라우드 서비스에 올리기 꺼려지는 분들에게 적합합니다.
Mamba + Transformer 하이브리드 — 왜 이 조합인가
이 모델이 작으면서도 똑똑한 비결은 하이브리드 구조에 있습니다. 기존 ChatGPT 같은 AI는 Transformer(트랜스포머)라는 구조를 씁니다. 강력하지만 메모리를 많이 먹습니다. Mamba(맘바)는 최근 주목받는 새로운 구조로, 메모리를 훨씬 적게 쓰면서도 긴 문서를 잘 처리합니다.
Nemotron 3 Nano 4B는 42개 레이어 중 21개를 Mamba-2, 4개를 Transformer Attention, 17개를 MLP(단순 연산 계층)로 구성했습니다. Mamba로 효율을 확보하고, 핵심적인 추론이 필요한 부분만 Transformer를 쓰는 전략입니다. 이 덕분에 같은 크기의 순수 Transformer 모델보다 메모리 사용량이 크게 줄었습니다.
실제로 사용해보기
Hugging Face에서 바로 다운로드할 수 있으며, 3가지 버전이 제공됩니다.
① BF16 (고정밀) — 최고 정확도가 필요할 때
② FP8 (8비트 양자화) — 정확도 100% 유지하면서 속도 1.8배
③ GGUF Q4_K_M (4비트) — 가장 가벼움, 소형 기기에 적합
vLLM으로 빠르게 시작하는 방법:
# 1. vLLM 설치
pip install -U "vllm>=0.15.1"
# 2. 서버 실행
vllm serve nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16 \
--served-model-name nemotron3-nano-4B \
--max-num-seqs 8 \
--tensor-parallel-size 1 \
--port 8000 \
--trust-remote-code
llama.cpp로 로컬 실행을 원하면 GGUF 버전을 다운로드하면 됩니다. Ollama 등 로컬 AI 런처에서도 곧 지원될 것으로 보입니다.
게임 NPC부터 로봇까지 — 엣지 AI의 가능성
엔비디아는 이 모델의 용도로 게임 AI NPC(비플레이어 캐릭터), 음성 비서, IoT 자동화(스마트홈 기기 제어)를 제시합니다. 실제로 벤치마크에 포함된 Orak 테스트는 슈퍼 마리오, 스타듀밸리 같은 게임에서 AI가 얼마나 똑똑하게 행동하는지를 측정합니다.
10조 개 이상의 토큰으로 훈련됐고, 영어 외에 한국어를 포함한 9개 언어를 지원합니다. 상업적 사용도 가능한 NVIDIA Nemotron Open Model License로 공개됐습니다.
같은 Nemotron 3 시리즈지만 용도가 다릅니다.
• Nano 4B — 내 PC, 소형 기기에서 직접 실행. 개인정보 보호, 빠른 응답이 중요할 때.
• Super 120B — 클라우드 서버에서 실행. 복잡한 추론, 긴 문서 분석이 필요할 때.
AI를 '로컬에서 가볍게' 쓸지, '클라우드에서 강력하게' 쓸지에 따라 선택하면 됩니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기
출처