2026-03-20AI 보안프라이버시ChatGPT데이터 보호AI 연구

내 이름을 지웠는데 AI가 다시 찾아냈다 — 익명 데이터 신원 복원 성공률 79%

버지니아공대 연구팀이 GPT-5와 Claude 4.5에게 익명 처리된 데이터를 줬더니 79%의 확률로 실제 신원을 복원했습니다. 넷플릭스 시청 기록, 검색 기록, ChatGPT 대화 로그까지 — 이름을 지워도 AI가 다시 찾아내는 시대입니다.

'이름만 지우면 안전하다'고 생각하셨나요? 더 이상 그렇지 않습니다. 버지니아공대 연구팀이 GPT-5와 Claude 4.5에게 익명 처리된 데이터를 분석하게 했더니, 79.2%의 확률로 실제 인물의 신원을 복원해냈습니다. 넷플릭스에서 뭘 봤는지, 뭘 검색했는지, ChatGPT에 뭘 물어봤는지 — 이런 흔적들을 AI가 조합하면 이름을 지워놔도 누군지 알아낼 수 있다는 뜻입니다.

AI가 어떻게 '나'를 찾아내는가

연구팀은 이 위협을 '추론 기반 연결'(inference-driven linkage)이라 이름 붙였습니다. 과거에는 익명 데이터에서 신원을 알아내려면 전문 지식, 맞춤형 알고리즘, 수작업 대조가 필요했습니다. 이제 AI가 그 모든 과정을 혼자서, 자동으로 해냅니다.

작동 방식은 이렇습니다. AI에게 익명 데이터(예: 번호만 있는 넷플릭스 시청 기록)를 주면, AI가 그 안에서 특이한 패턴을 찾아냅니다. 그리고 인터넷에 공개된 정보(SNS, 블로그, 논문 등)와 대조해서 '이 사람이 아닐까?' 하고 추론합니다. 마치 탐정처럼요.

AI가 익명 검색 기록에서 직업, 건강 상태, 생활 패턴까지 알아내는 과정을 보여주는 다이어그램

위 그림은 실제 실험 중 하나입니다. 익명 처리된 검색 기록만으로 AI가 그 사람의 직업, 소속 기관, 건강 상태(우울증 치료제 검색), 심지어 데이트 앱 사용 여부까지 파악한 사례입니다.

넷플릭스 기록 2개만으로 79% 성공

연구팀은 세 가지 상황에서 실험했습니다.

실험 1: 넷플릭스 시청 기록

1,000명의 익명 시청 기록에서 영화 평점 단 2개만 알려줬을 때:

GPT-5: 79.2% 성공 (기존 전통적 방법은 56.0%)
평점 4개를 알려주면: 94.8% 성공
평점 8개를 알려주면: 99.0% 성공 — 거의 100%
Claude 4.5: 데이터가 충분하면 97.3%까지 올라갔지만, 적은 데이터에선 53.3%로 하락

실험 2: 검색 기록 (AOL 데이터)

160만 건의 익명 검색 기록 중 위치 정보가 포함된 40명을 분석했습니다. 이름 같은 직접적 정보는 모두 제거한 상태였는데도 AI가 10명의 실제 신원을 확인했습니다. 사업자 등록 정보, 디지털 흔적, 출판물 등을 교차 대조하는 방식이었습니다.

실험 3: ChatGPT 대화 기록과 인터뷰 녹취록

가장 무서운 실험입니다. Anthropic이 진행한 과학자 인터뷰(이름 제거 후)를 AI에게 줬더니, 연구 주제와 방법론만 보고 6명의 실제 연구자를 특정했습니다. ChatGPT 대화 기록 1,916건 중 고위험 30건을 분석했을 때도, 대화 속 위치·전공·논문 힌트를 조합해 실제 사용자 1명을 특정하는 데 성공했습니다.

익명 처리된 연구자 인터뷰에서 AI가 연구 주제와 방법론만으로 신원을 복원하는 과정

위 그림은 익명 처리된 과학자 인터뷰에서 AI가 연구 분야, 소속 대학, 사용 방법론을 추출한 뒤 논문 검색으로 실제 이름까지 알아내는 과정입니다.

시키지 않아도 AI가 알아서 신원을 추론한다

연구에서 가장 충격적인 발견은 따로 있습니다. AI에게 '신원을 찾아라'고 지시하지 않았는데도, 데이터를 분석하는 과정에서 알아서 신원을 추론하는 경우가 있었습니다.

Claude 4.5: '그냥 데이터 분석해줘'라고만 시켰을 때도 70%의 확률로 신원 가설을 생성
GPT-5: 같은 상황에서 25%의 확률 — 낮지만 여전히 발생
'이 사람 누구인지 찾아봐'라고 명시적으로 요청하면 Claude 4.5는 100% 성공

즉, AI를 사용하는 회사가 고객 데이터를 분석할 때, 의도하지 않았는데도 AI가 고객의 실제 신원을 알아내버릴 수 있다는 뜻입니다.

익명 ChatGPT 대화 로그에서 위치, 건강 상태, 차량 정보까지 AI가 추론하는 과정

막을 수는 있지만 대가가 크다

연구팀은 방어 방법도 테스트했습니다. AI에게 '개인정보를 추론하지 마'라는 안전 지침을 넣으면 성공률이 99%에서 1%로 급감합니다. 효과는 있습니다.

하지만 대가도 큽니다. 이 안전 지침을 넣으면 AI가 정당한 데이터 분석까지 거부하기 시작합니다. Claude 4.5의 경우 분석 유용성이 54%나 떨어졌습니다. 보안을 강화하면 AI가 쓸모없어지고, 유용하게 쓰려면 보안이 뚫리는 딜레마입니다.

내 데이터를 지키려면

이 연구가 전하는 핵심 메시지는 분명합니다. '이름만 지우면 안전하다'는 시대는 끝났다는 것입니다.

지금 당장 확인할 것들:

ChatGPT 대화 기록 — 설정에서 '모델 학습에 사용하지 않기'를 켜두었는지 확인. 대화 속 위치, 직장, 건강 이야기가 조합되면 신원이 드러날 수 있습니다.
넷플릭스·유튜브 시청 기록 — 공개 프로필에 시청 목록을 올려두셨다면 주의. 시청 패턴만으로도 신원 복원이 가능합니다.
회사에서 AI로 고객 데이터를 분석하는 경우 — 익명 처리만 믿지 말고, AI 모델에 개인정보 추론 방지 지침을 반드시 포함해야 합니다.
학술 인터뷰·설문 참여 — 연구 주제나 방법론만 이야기해도 누군지 특정될 수 있습니다. 참여 전 익명성 보장 범위를 확인하세요.

연구팀은 "정보 유출이 아니라 정보 추론이 새로운 1급 프라이버시 위험"이라고 결론지었습니다. 데이터를 '누가 볼 수 있느냐'만이 아니라, 그 데이터로 '누구인지 추론할 수 있느냐'까지 고려해야 하는 시대가 온 것입니다.

논문 원문은 arXiv에서 무료로 읽을 수 있습니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독