2026-03-27로컬 AIMacBookFlash-MoE오픈소스AI 모델MoE

서버 없이 MacBook 1대로 4천억 파라미터 AI를 돌렸습니다 — Flash-MoE, HN 393포인트

순수 C언어로 만든 Flash-MoE, 48GB MacBook M3 Max 1대로 397B 모델을 4.4~5.5 토큰/초로 실행. 209GB 모델을 SSD 스트리밍으로 처리. GitHub 2,100+ 스타. 파이썬·클라우드 없이 GPT-4급 로컬 AI 가동.

핵심 3줄: 4천억 파라미터짜리 거대 AI를 MacBook 1대에서 실행하는 시대가 열렸습니다. 클라우드 서버도, 파이썬 환경도 필요 없습니다. 초당 4~5단어 속도로 실시간 대화 가능 — 실용적인 수준입니다.

이게 왜 대단한 일인가요?

GPT-4 수준의 거대 AI 모델을 돌리려면 보통 A100이나 H100 같은 전문 서버용 GPU(Graphics Processing Unit, AI 연산에 특화된 고성능 처리 칩)가 여러 장 필요합니다. 이런 GPU 1장 가격이 수천만 원이고, 클라우드로 빌려도 하루에 수십만 원이 나갑니다.

그런데 미국 CVS Health(대형 헬스케어 기업)의 AI 플랫폼 부사장 출신 개발자 Dan Woods가 Flash-MoE를 공개했습니다. 파이썬 한 줄도 없이 순수 C언어와 Apple Metal(Apple 기기의 GPU를 직접 제어하는 저수준 그래픽 API)로만 작성했습니다. 그리고 MacBook Pro M3 Max(48GB 통합 메모리) 단 1대로 3,970억(397B) 파라미터짜리 Qwen3.5-397B-A17B 모델을 실시간으로 실행하는 데 성공했습니다.

세계 최대 개발자 커뮤니티 Hacker News에서 393포인트, 121개 댓글로 이번 주 AI 분야 최고 화제를 기록했고, GitHub 스타도 2,100개를 빠르게 돌파했습니다.

Flash-MoE GitHub 저장소 — danveloper/flash-moe

MoE(전문가 혼합) 구조가 핵심입니다

Flash-MoE의 MoE는 Mixture of Experts(전문가 혼합)의 약자입니다. 비유로 설명하면 이렇습니다: 일반 AI 모델은 질문이 들어올 때마다 뇌 전체를 활성화합니다. 반면 MoE 방식은 처리 단계(레이어)마다 512명의 전문가를 대기시켜 놓고, 그 중 가장 적합한 4명에게만 답변을 요청합니다. 나머지 508명은 그 순간 잠듭니다.

이 구조 덕분에 모델 전체 크기는 209GB이지만, 매 순간 실제로 메모리에 올려야 하는 기본 가중치(weight, AI 모델이 학습한 판단 기준값들)는 5.5GB뿐입니다. 나머지는 필요할 때 SSD에서 불러옵니다.

397B

파라미터 (GPT-4급)

48GB

필요 RAM

4.4~5.5

토큰/초 출력

71%

SSD 캐시 히트율

MacBook SSD가 서버 GPU를 대체하는 원리

Flash-MoE가 성립하는 비밀은 Apple M3 Max의 SSD 속도입니다. 이 노트북의 SSD는 초당 17.5GB를 읽을 수 있습니다. AI와 대화하면서 초당 4~5개의 토큰(token, AI가 텍스트를 처리하는 최소 단위 — 대략 한국어 1~2음절)을 생성하는 데 필요한 데이터량이 이 속도 안에서 충분히 공급됩니다.

더 놀라운 것은 별도의 캐시 관리 코드 없이 macOS의 기본 페이지 캐시(page cache, 운영체제가 최근 사용한 파일을 자동으로 메모리에 임시 보관하는 기능)를 그대로 활용했다는 점입니다. 자주 쓰이는 '전문가' 가중치들이 자동으로 캐시에 남아, 전체 요청의 71%가 SSD 재읽기 없이 처리됩니다.

추가로 두 가지 최적화가 성능을 더 끌어올립니다:

FMA 디퀀타이제이션 커널: FMA(Fused Multiply-Add, 곱셈+덧셈을 1클럭에 처리하는 CPU 기능)를 활용해 압축된 모델 데이터를 풀어내는 속도를 12% 향상
Apple Accelerate BLAS: Apple이 M시리즈 칩 전용으로 최적화한 수학 연산 라이브러리(자주 쓰이는 선형대수 계산 모음)로 어텐션(attention, AI가 맥락 파악을 위해 문장의 각 부분에 가중치를 계산하는 핵심 연산) 속도 64% 향상

60개 레이어의 혼합 설계 — 속도와 품질 동시에

Qwen3.5-397B 모델은 총 60개의 트랜스포머 레이어(transformer layer, AI가 언어를 단계적으로 이해하는 처리 블록)로 이뤄집니다. 레이어 조합이 독특합니다:

45개 레이어: GatedDeltaNet — 선형 어텐션(linear attention) 방식. 계산량이 적어 속도가 빠름
15개 레이어: 표준 풀 어텐션(Full Attention) — 정확하지만 연산이 무거운 전통적 방식

속도는 선형 어텐션이 담당하고, 품질은 풀 어텐션이 보완하는 구조입니다. 도구 호출(tool calling, AI가 직접 계산기·웹 검색 등 외부 기능을 실행하는 기능)도 완전히 지원합니다.

직접 설치해 보려면

최소 요건: Apple M3 Max MacBook Pro + 통합 메모리 48GB + SSD 여유 공간 250GB 이상. 파이썬이나 conda 환경 설정이 전혀 필요 없습니다. make(소스코드를 자동으로 빌드하는 Unix 명령어) 하나로 실행 파일 생성 완료입니다.

git clone https://github.com/danveloper/flash-moe
cd flash-moe
make

# 빌드 완료 후 모델 파일 다운로드 시작 (209GB — Wi-Fi 속도에 따라 수 시간 소요)
# 다운로드 완료 후 ./flash-moe 실행 → 터미널에서 바로 대화 가능
# 도구 호출(계산기, 검색 등 외부 기능 연결) 기본 지원

Anthropic 연구팀이 만든 포크(fork, 원본 저장소를 복제해 별도로 개발하는 것)도 운영 중입니다: github.com/Anemll/flash-moe

실패 58회를 전부 공개한 투명성

Dan Woods는 개발 과정에서 수행한 실험 58회 전체를 TSV 파일(텍스트 표 형식 데이터)로 공개했습니다. 성공 케이스뿐 아니라 실패 케이스도 빠짐없이 포함됩니다. Hacker News 댓글에서 "이런 투명성이야말로 오픈소스의 진정한 가치"라는 반응이 줄을 이었습니다. Anthropic 직원들도 포크를 만들어 별도 개발을 이어가고 있으며, 커뮤니티 기여자가 빠르게 늘고 있습니다.

이것이 의미하는 것 — "대형 AI = 클라우드 필수" 공식이 흔들린다

Flash-MoE의 가장 큰 의미는 단순한 기술 시연 이상입니다. GPT-4급 AI를 인터넷 없이, 구독료 없이, 데이터 유출 걱정 없이 — 완전히 내 기기 안에서 돌릴 수 있는 세상이 실제로 열리고 있습니다.

현재는 M3 Max 48GB가 필요하지만, 향후 M4 Ultra(최대 192GB 통합 메모리)에서는 훨씬 빠른 속도로 더 큰 모델도 가능할 것으로 기대됩니다. 로컬 AI의 가능성 상한선이 급격히 높아지고 있습니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독