내 컴퓨터의 AI에 레이어 3개만 복사하면 추론 능력이 245% 올라간다 — 학습 없이, 무료로
AI 모델 내부의 특정 레이어 3개를 복사해 붙여넣기만 하면 논리 추론 점수가 0.22에서 0.76으로 뛰어오른다. 학습도 필요 없고 GPU 2개면 된다. 오픈소스 도구 LLM Circuit Finder의 원리와 사용법을 정리했다.
내 컴퓨터에서 돌리는 AI 모델이 있다면, 코드 3개 레이어(층)를 복사해서 붙여넣는 것만으로 논리 추론 능력을 245% 끌어올릴 수 있습니다. 추가 학습(훈련) 없이, 모델의 가중치(AI가 기억하는 숫자들)도 건드리지 않습니다. 오픈소스 프로젝트 LLM Circuit Finder가 이 방법을 무료 도구로 공개했습니다.
핵심 한 줄: AI 모델은 내부에 '추론 회로'라는 구역이 있습니다. 그 회로를 한 번 더 거치게 하면 — 마치 시험 답안지를 한 번 더 검토하는 것처럼 — 정답률이 극적으로 올라갑니다.
논리 추론 0.22 → 0.76, 대체 무슨 일이 벌어진 건가
이 프로젝트의 핵심 아이디어는 놀라울 만큼 단순합니다. AI 모델(트랜스포머)은 여러 개의 '레이어(층)'를 쌓아 만드는데, 그중 특정 3~4개 층이 '추론 회로' 역할을 합니다. 이 회로를 한 번만 통과하는 대신, 같은 회로를 두 번 통과시키면 마치 문제를 한 번 더 곱씹어 보는 효과가 나타납니다.
이 기법의 이름은 RYS(Repeat Your Strengths)입니다. 원래 David Ng이라는 연구자가 제안한 방법인데, LLM Circuit Finder 개발자가 이를 재현하고 자동화 도구로 만들었습니다. AMD GPU 2개로, 하룻밤 만에 완성했다고 합니다.
실제 벤치마크 결과
24억 개 매개변수 모델(Devstral-Small-2-24B)에서 12~14번째 레이어를 복사한 결과입니다.
전체 평균 8% 향상이며, 성능이 떨어지는 항목은 단 하나도 없었습니다. 320억 매개변수 모델(Qwen2.5-Coder-32B)에서는 7~9번째 레이어를 복사했을 때 추론 능력이 76.5%에서 94.1%로 23% 상승했습니다.
같은 AI, 다른 성격 — '모드'의 발견
더 흥미로운 발견도 있습니다. 같은 모델이라도 레이어를 복사하는 패턴을 바꾸면 완전히 다른 '성격'이 나타납니다.
수학 ↑↑ | 감성 ↑
수학 전문가 모드
수학 ↑ | 감성 ↑↑
감성 전문가 모드
수학 ↑↑↑ | 감성 ↓
순수 수학 모드
수학 — | 감성 ↑↑
감성 집중 모드
디스크에 저장된 AI의 숫자(가중치)는 완전히 동일합니다. 데이터를 통과시키는 경로만 바꿨는데 행동이 달라진다는 뜻입니다. 마치 같은 교과서를 읽되, 수학 챕터를 세 번 읽느냐 감성 챕터를 세 번 읽느냐에 따라 '전문 분야'가 바뀌는 것과 같습니다.
비용과 성능 영향
이 방법의 대가는 미미합니다.
• 추가 메모리: 약 1.5GB (24B 모델 기준 레이어 3개분)
• 속도 감소: 약 7.5% (40개 층에 3개 추가이므로)
• 학습 비용: 0원 — 기존 모델 파일을 복사해서 붙이는 작업뿐
GPU 메모리가 1.5GB 더 있으면 논리 추론 능력이 3.5배로 뛰어오르는 셈이니, 가성비로 따지면 현존하는 가장 효율적인 AI 성능 향상법일 수 있습니다.
직접 해보기 — 설치부터 실행까지
로컬에서 GGUF 형식(내 컴퓨터용 AI 모델 파일 형식)의 AI를 돌리고 있다면, 이렇게 시작합니다.
# 1. 도구 설치
pip install gguf requests tqdm
# 2. 내 모델에서 추론 회로 찾기 (어떤 층을 복사해야 하는지 자동 탐색)
python sweep.py --model /path/to/model.gguf \
--llama-server /path/to/llama-server \
--block-sizes 3 4 --stride 1
# 3. 찾은 회로를 복사해서 새 모델 만들기 (Devstral 예시)
python layer_path.py model.gguf improved.gguf \
-p "0..14,12,13,14,15..39" -v
주의: 이 도구는 llama.cpp와 GGUF 모델 파일이 필요합니다. Ollama 등으로 이미 로컬 AI를 돌리고 있는 분들이라면 익숙한 환경입니다. 아직 로컬 AI를 사용하지 않는 분들은 먼저 Ollama를 설치하는 것을 추천합니다.
왜 이게 작동하는가 — 한 층만 밀어도 효과 사라져
가장 놀라운 발견은 정확한 위치가 매우 중요하다는 것입니다. 12~14번째 레이어를 복사하면 245% 향상이지만, 13~15번째로 한 칸만 밀면 효과가 사라지거나 오히려 나빠집니다.
이것은 AI 모델이 학습 과정에서 자발적으로 기능별 '구역'을 형성한다는 것을 의미합니다. 마치 뇌의 특정 부위가 언어·시각·감정을 담당하듯, AI 내부에도 추론·수학·감성을 담당하는 구역이 존재하며, 이 프로젝트는 그 구역을 자동으로 찾아내는 도구입니다.
모델마다 추론 회로의 위치가 다릅니다. Devstral-24B는 12~14번째, Qwen2.5-32B는 7~9번째에 있었습니다. sweep.py 도구가 이 위치를 자동으로 탐색해줍니다.
누구에게 유용한가
Ollama·llama.cpp로 로컬 AI를 돌리는 분: 지금 쓰는 모델의 추론 능력을 GPU 메모리 1.5GB 추가만으로 끌어올릴 수 있습니다.
AI 연구자·엔지니어: 파인튜닝(추가 학습) 없이 모델 성능을 개선하는 새로운 접근법입니다. 기존 방법과 병행 가능합니다.
AI에 관심 있는 모든 분: AI가 '생각'하는 방식에 대한 놀라운 통찰입니다. 모델 내부에 뇌의 기능 구역 같은 구조가 존재한다는 발견은, AI를 이해하는 새로운 시각을 제공합니다.
한계와 전망
아직 초기 연구 단계입니다. 테스트된 모델은 2종(Devstral-24B, Qwen2.5-32B)뿐이고, 개발자는 "모든 트랜스포머 모델에 회로가 있다 — 문제는 어디에 있느냐"라고 주장합니다. 더 많은 모델에서 검증이 필요하며, 대규모 벤치마크에서의 결과도 확인해야 합니다.
그럼에도 '학습 없이 구조만 바꿔서 성능을 올린다'는 아이디어는 AI 연구에 새로운 방향을 제시합니다. GPU 수천 장이 필요한 추가 학습 대신, 이미 학습된 모델의 잠재력을 건축 설계 변경만으로 끌어낸다는 발상은 — 특히 비용과 에너지 문제가 화두인 지금 — 주목할 가치가 있습니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기