2026-03-24온디바이스 AI로컬 LLMANEMLLiPhone AIMoE 구조AI 모델 경량화오픈소스 LLM스마트폰 AI

온디바이스 AI 혁신 — iPhone 17 Pro에서 400B 로컬 LLM 구동한 ANEMLL

인터넷 없이 스마트폰으로 ChatGPT급 초대형 AI 구동이 현실이 됐습니다. ANEMLL이 MoE 구조로 4000억 파라미터의 96%를 비활성화해 iPhone 17 Pro 로컬 구동 성공 — 작동 원리부터 설치 방법까지 정리했습니다.

온디바이스 AI와 로컬 LLM의 새로운 이정표가 세워졌습니다. 스마트폰 한 대에서 4000억 개 파라미터짜리 대규모 언어 모델(LLM)을 인터넷 없이 로컬로 구동하는 데 성공한 것입니다. 오픈소스 프로젝트 ANEMLL(Apple Neural Engine Machine Learning Library)이 iPhone 17 Pro에서 Qwen3.5-397B-A17B 모델을 구동하는 모습을 시연했고, 해커뉴스에서 136표와 86개의 댓글을 받으며 큰 관심을 끌었습니다.

다만 속도는 초당 0.6글자 — 사람이 손으로 펜글씨를 쓰는 것보다 느립니다. 실용적이진 않지만, 1년 전만 해도 불가능하다고 여겨졌던 일이 스마트폰에서 현실이 됐다는 점에서 의미가 큽니다.

ANEMLL 온디바이스 AI 프레임워크 — Apple Neural Engine으로 iPhone에서 4000억 파라미터 로컬 LLM을 구동하는 오픈소스 프로젝트

4000억인데 실제로 일하는 건 170억뿐 — MoE 구조로 로컬 LLM을 가능하게 한 비밀

'400B 모델을 스마트폰에서 돌렸다'는 헤드라인만 보면 마법 같지만, 비밀은 MoE(Mixture of Experts, 전문가 혼합) 구조에 있습니다. 쉽게 비유하면 이렇습니다.

일반 AI 모델 = 직원 4000명이 매번 전원 출근해서 일하는 회사
MoE 모델 = 직원 4000명을 고용했지만, 질문이 들어올 때마다 전문가 170명만 출근시키는 회사

Qwen3.5-397B-A17B에서 397B는 전체 직원 수(3970억 개 파라미터), A17B는 매번 실제로 일하는 전문가 수(170억 개 파라미터)입니다. 나머지 96%는 잠들어 있다가 자기 전문 분야 질문이 올 때만 깨어납니다.

iPhone 17 Pro의 메모리는 12GB뿐입니다. 4000억 파라미터를 통째로 메모리에 올리려면 수백 GB가 필요하니 물리적으로 불가능합니다. ANEMLL은 Apple의 'LLM in a Flash' 연구를 기반으로, 모델 가중치를 SSD(저장장치)에 저장해두고 필요한 전문가만 실시간으로 불러오는 방식을 사용합니다.

ANEMLL vs ChatGPT — 온디바이스 AI와 클라우드 AI 성능 비교

항목	ANEMLL (iPhone 로컬)	ChatGPT (클라우드)
응답 속도	~0.6 토큰/초	~80 토큰/초
인터넷 필요	불필요 (완전 오프라인)	필수
개인정보 보호	내 폰에서만 처리	서버로 전송
비용	무료 (오픈소스)	월 $20~$200

해커뉴스 댓글에서 cogman10은 "소프트웨어 엔지니어링의 승리"라고 평가했고, ashwinnair99는 "1년 전만 해도 불가능하다고 여겨졌던 일"이라고 반응했습니다. 반면 ottah는 "실용적으로는 완전히 쓸모없다. 초당 0.4글자로는 아무것도 할 수 없다"며 냉정한 평가를 남겼습니다.

스마트폰 AI의 미래 — '불가능'이 '느림'으로 바뀌는 전환점

AI 업계에서 '안 된다'가 '느리다'로 바뀌는 순간은 언제나 전환점이었습니다. 2023년에 스마트폰에서 7B 모델을 돌리는 것도 이상한 일이었는데, 2024년에는 일상이 됐습니다. 지금 0.6 토큰/초인 것이 1~2년 뒤에는 실용적 속도에 도달할 가능성이 높습니다.

특히 MoE 구조는 앞으로 스마트폰 AI의 핵심 열쇠가 될 전망입니다. Google의 Gemini와 Meta의 LLaMA 차기 버전도 MoE를 적극 채택하고 있어, '거대하지만 효율적인' 모델이 모바일 기기로 내려오는 흐름이 가속화되고 있습니다. 이런 AI 에이전트 기술의 흐름이 궁금하다면 에이전틱 AI 개념 정리 가이드에서 기초부터 확인할 수 있습니다.

ANEMLL이 지원하는 모델 (실용적 속도로 구동 가능)

LLaMA 3.1/3.2 (1B~8B) · Qwen 2.5/3 (0.5B~8B) · Gemma 3 (270M~4B) · DeepSeek R1 (8B) · DeepHermes (3B~8B)

위 모델들은 iPhone에서 실용적 속도로 구동됩니다. 397B 모델은 기술 시연 목적입니다.

ANEMLL 설치 방법 — iPhone에서 온디바이스 로컬 AI 직접 체험하기

iPhone 15 이상(iOS 18+) 또는 M1 이상 Mac이 있다면, ANEMLL Chat 앱을 TestFlight에서 받아 직접 테스트할 수 있습니다. 8B 이하 모델은 실용적인 속도로 작동합니다.

# Mac에서 ANEMLL 설치하기
git clone https://github.com/anemll/anemll.git
cd anemll
pip install -e .

# HuggingFace에서 변환된 모델 다운로드
# 자세한 안내: https://github.com/anemll/anemll/blob/main/docs/convert.md

ANEMLL GitHub 저장소에서 전체 소스코드와 모델 변환 가이드를 확인할 수 있습니다. 현재 깃허브 스타 1,500개이며, Apple Neural Engine에 최적화된 유일한 오픈소스 LLM 추론 프레임워크입니다. AI 도구를 처음 설치해보는 분이라면 AI 환경 세팅 가이드를 먼저 참고하세요.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독