내 이름을 지웠는데 AI가 다시 찾아냈다 — 익명 데이터 신원 복원 성공률 79%
버지니아공대 연구팀이 GPT-5와 Claude 4.5에게 익명 처리된 데이터를 줬더니 79%의 확률로 실제 신원을 복원했습니다. 넷플릭스 시청 기록, 검색 기록, ChatGPT 대화 로그까지 — 이름을 지워도 AI가 다시 찾아내는 시대입니다.
'이름만 지우면 안전하다'고 생각하셨나요? 더 이상 그렇지 않습니다. 버지니아공대 연구팀이 GPT-5와 Claude 4.5에게 익명 처리된 데이터를 분석하게 했더니, 79.2%의 확률로 실제 인물의 신원을 복원해냈습니다. 넷플릭스에서 뭘 봤는지, 뭘 검색했는지, ChatGPT에 뭘 물어봤는지 — 이런 흔적들을 AI가 조합하면 이름을 지워놔도 누군지 알아낼 수 있다는 뜻입니다.
AI가 어떻게 '나'를 찾아내는가
연구팀은 이 위협을 '추론 기반 연결'(inference-driven linkage)이라 이름 붙였습니다. 과거에는 익명 데이터에서 신원을 알아내려면 전문 지식, 맞춤형 알고리즘, 수작업 대조가 필요했습니다. 이제 AI가 그 모든 과정을 혼자서, 자동으로 해냅니다.
작동 방식은 이렇습니다. AI에게 익명 데이터(예: 번호만 있는 넷플릭스 시청 기록)를 주면, AI가 그 안에서 특이한 패턴을 찾아냅니다. 그리고 인터넷에 공개된 정보(SNS, 블로그, 논문 등)와 대조해서 '이 사람이 아닐까?' 하고 추론합니다. 마치 탐정처럼요.
위 그림은 실제 실험 중 하나입니다. 익명 처리된 검색 기록만으로 AI가 그 사람의 직업, 소속 기관, 건강 상태(우울증 치료제 검색), 심지어 데이트 앱 사용 여부까지 파악한 사례입니다.
넷플릭스 기록 2개만으로 79% 성공
연구팀은 세 가지 상황에서 실험했습니다.
실험 1: 넷플릭스 시청 기록
1,000명의 익명 시청 기록에서 영화 평점 단 2개만 알려줬을 때:
- GPT-5: 79.2% 성공 (기존 전통적 방법은 56.0%)
- 평점 4개를 알려주면: 94.8% 성공
- 평점 8개를 알려주면: 99.0% 성공 — 거의 100%
- Claude 4.5: 데이터가 충분하면 97.3%까지 올라갔지만, 적은 데이터에선 53.3%로 하락
실험 2: 검색 기록 (AOL 데이터)
160만 건의 익명 검색 기록 중 위치 정보가 포함된 40명을 분석했습니다. 이름 같은 직접적 정보는 모두 제거한 상태였는데도 AI가 10명의 실제 신원을 확인했습니다. 사업자 등록 정보, 디지털 흔적, 출판물 등을 교차 대조하는 방식이었습니다.
실험 3: ChatGPT 대화 기록과 인터뷰 녹취록
가장 무서운 실험입니다. Anthropic이 진행한 과학자 인터뷰(이름 제거 후)를 AI에게 줬더니, 연구 주제와 방법론만 보고 6명의 실제 연구자를 특정했습니다. ChatGPT 대화 기록 1,916건 중 고위험 30건을 분석했을 때도, 대화 속 위치·전공·논문 힌트를 조합해 실제 사용자 1명을 특정하는 데 성공했습니다.
위 그림은 익명 처리된 과학자 인터뷰에서 AI가 연구 분야, 소속 대학, 사용 방법론을 추출한 뒤 논문 검색으로 실제 이름까지 알아내는 과정입니다.
시키지 않아도 AI가 알아서 신원을 추론한다
연구에서 가장 충격적인 발견은 따로 있습니다. AI에게 '신원을 찾아라'고 지시하지 않았는데도, 데이터를 분석하는 과정에서 알아서 신원을 추론하는 경우가 있었습니다.
- Claude 4.5: '그냥 데이터 분석해줘'라고만 시켰을 때도 70%의 확률로 신원 가설을 생성
- GPT-5: 같은 상황에서 25%의 확률 — 낮지만 여전히 발생
- '이 사람 누구인지 찾아봐'라고 명시적으로 요청하면 Claude 4.5는 100% 성공
즉, AI를 사용하는 회사가 고객 데이터를 분석할 때, 의도하지 않았는데도 AI가 고객의 실제 신원을 알아내버릴 수 있다는 뜻입니다.
막을 수는 있지만 대가가 크다
연구팀은 방어 방법도 테스트했습니다. AI에게 '개인정보를 추론하지 마'라는 안전 지침을 넣으면 성공률이 99%에서 1%로 급감합니다. 효과는 있습니다.
하지만 대가도 큽니다. 이 안전 지침을 넣으면 AI가 정당한 데이터 분석까지 거부하기 시작합니다. Claude 4.5의 경우 분석 유용성이 54%나 떨어졌습니다. 보안을 강화하면 AI가 쓸모없어지고, 유용하게 쓰려면 보안이 뚫리는 딜레마입니다.
내 데이터를 지키려면
이 연구가 전하는 핵심 메시지는 분명합니다. '이름만 지우면 안전하다'는 시대는 끝났다는 것입니다.
지금 당장 확인할 것들:
- ChatGPT 대화 기록 — 설정에서 '모델 학습에 사용하지 않기'를 켜두었는지 확인. 대화 속 위치, 직장, 건강 이야기가 조합되면 신원이 드러날 수 있습니다.
- 넷플릭스·유튜브 시청 기록 — 공개 프로필에 시청 목록을 올려두셨다면 주의. 시청 패턴만으로도 신원 복원이 가능합니다.
- 회사에서 AI로 고객 데이터를 분석하는 경우 — 익명 처리만 믿지 말고, AI 모델에 개인정보 추론 방지 지침을 반드시 포함해야 합니다.
- 학술 인터뷰·설문 참여 — 연구 주제나 방법론만 이야기해도 누군지 특정될 수 있습니다. 참여 전 익명성 보장 범위를 확인하세요.
연구팀은 "정보 유출이 아니라 정보 추론이 새로운 1급 프라이버시 위험"이라고 결론지었습니다. 데이터를 '누가 볼 수 있느냐'만이 아니라, 그 데이터로 '누구인지 추론할 수 있느냐'까지 고려해야 하는 시대가 온 것입니다.
논문 원문은 arXiv에서 무료로 읽을 수 있습니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기
출처