인터넷 아카이브 차단 — 241개 뉴스 사이트, AI 우려로 웹 역사 1조 페이지 위기
뉴욕타임스·가디언 등 241개 사이트가 AI 학습 우려로 웨이백 머신을 차단하고 있습니다. 하지만 인터넷 아카이브는 AI를 만들지 않습니다. 30년간 쌓인 웹 역사가 사라질 위기, 대응법까지 정리했습니다.
인터넷 아카이브(Internet Archive) 차단이 빠르게 확산되고 있습니다. 뉴욕타임스를 포함한 241개 뉴스 사이트가 AI 학습 데이터 유출을 우려해 웨이백 머신(Wayback Machine) 크롤러를 차단하기 시작했습니다. 하지만 인터넷 아카이브는 AI를 만들지 않는 비영리 단체입니다. AI 저작권 논쟁이 엉뚱한 곳을 겨냥하면서, 30년간 쌓인 웹 역사 1조 페이지가 끊길 위험에 놓였습니다.
10년 전에 읽었던 뉴스 기사가 갑자기 필요해질 때가 있습니다. 삭제된 웹 페이지를 되살리거나, 기사가 어떻게 수정되었는지 확인하고 싶을 때, 인터넷 아카이브(Internet Archive)의 '웨이백 머신(Wayback Machine)'은 유일한 선택지였습니다. 과거 웹 페이지를 그대로 볼 수 있는 세계 최대의 디지털 도서관입니다. 그런데 지금, 이 인터넷 역사 보관소가 막히고 있습니다.
뉴욕타임스(NYT)를 시작으로 가디언(The Guardian), 파이낸셜타임스(FT)를 포함한 9개국 241개 뉴스 사이트가 인터넷 아카이브의 웹 수집기를 차단했습니다. 이유는 AI입니다. 뉴스 사이트들은 AI 회사가 자기 기사를 학습 데이터로 쓸까 봐, 자동 수집 자체를 전면 차단하기 시작한 것입니다.
뉴욕타임스·가디언의 웹 크롤러 차단 현황
뉴욕타임스는 archive.org 크롤러(웹 페이지를 자동으로 읽어가는 프로그램)를 완전히 차단했습니다. 일반적인 robots.txt("이 페이지는 수집하지 마세요"라고 알려주는 표준 안내 파일)를 넘어서는 기술적 조치까지 사용했습니다.
가디언은 홈페이지와 섹션 페이지만 허용하고 개별 기사 페이지 접근을 막았습니다. 파이낸셜타임스는 모든 외부 자동 수집기를 일괄 차단했습니다. 분석에 따르면 차단 사이트의 87%가 USA Today 계열사 소속이며, 이 추세는 빠르게 확산되고 있습니다.
인터넷 아카이브(웨이백 머신)가 보관하는 것들
• 전 세계 웹 페이지 1조 개 이상 아카이브
• 위키피디아가 참조하는 뉴스 기사 링크 260만 개 (249개 언어)
• 삭제되거나 수정된 웹 페이지의 원본 기록
• 1996년부터 약 30년간의 웹 역사
인터넷 아카이브는 AI를 만들지 않습니다
여기서 핵심적인 사실이 있습니다. 인터넷 아카이브는 상업용 AI를 개발하지 않습니다. 이 비영리 단체의 목적은 웹 역사를 보존하는 것이지, ChatGPT나 Gemini 같은 대형 언어 모델을 훈련시키는 것이 아닙니다.
미국 전자프론티어재단(EFF)의 조 멀린(Joe Mullin)은 이렇게 지적합니다: "출판사들이 인터넷 아카이브를 막는다고 해서 AI 봇을 막는 것이 아닙니다. 그들은 역사적 기록을 지우고 있는 것입니다."
실제로 AI 회사들은 뉴스 사이트를 직접 크롤링하거나, 뉴스 제공 계약을 체결하거나, 다른 데이터 소스를 사용합니다. 가디언 측이 접속 기록을 확인했을 때, AI 회사가 웨이백 머신을 통해 기사를 가져갔다는 구체적인 증거는 확인되지 않았습니다. 인터넷 아카이브를 차단해도 AI 학습은 계속되지만, 웹 역사 기록만 끊기게 됩니다. AI가 실제로 어떻게 데이터를 수집하고 학습하는지 궁금하다면 에이전틱 AI 기초 가이드에서 AI의 작동 원리를 확인할 수 있습니다.
AI 저작권 논쟁 — 구글 북스 공정 이용 판례
이 논쟁에는 법적 선례가 있습니다. 구글은 수백만 권의 책을 스캔해서 검색 가능하게 만들었고, 출판사들이 저작권 침해로 소송을 걸었습니다. 하지만 미국 법원은 구글 북스를 '명백한 공정 이용(fair use, 교육·연구·보도 목적이라면 저작물을 허락 없이 사용할 수 있는 법적 권리)'으로 판결했습니다. 복사가 검색과 연구라는 변환적 목적에 사용되었기 때문입니다.
인터넷 아카이브의 웹 보존도 같은 논리가 적용됩니다. 자료를 검색 가능하게 만들어 공공의 이익에 기여하는 것이 공정 이용의 핵심이라면, 웹 역사 보존 역시 보호받아야 한다는 것이 EFF의 주장입니다.
웨이백 머신 차단 시 예상되는 피해
웹 페이지는 영원하지 않습니다. 사이트가 리뉴얼되거나, 회사가 인수되거나, 서버를 닫으면 기사는 사라집니다. 인터넷 아카이브가 이런 기사의 원본을 보관하지 않으면 어떤 일이 벌어질까요?
웨이백 머신(Wayback Machine) 사용법
현재로서는 대부분의 웹 페이지를 여전히 웨이백 머신에서 확인할 수 있습니다. 하지만 차단이 확산되면 새로 수집되는 기록의 공백이 점점 커질 수 있습니다.
# 과거 웹 페이지 찾기
https://web.archive.org/web/*/찾고싶은URL
# 예: 2020년 뉴욕타임스 기사를 찾으려면
https://web.archive.org/web/2020/https://www.nytimes.com/기사주소
# 중요한 웹 페이지를 직접 저장하려면
https://web.archive.org/save/저장할URL
중요한 웹 페이지를 발견하면 web.archive.org/save에서 직접 아카이브에 저장할 수도 있습니다. 차단이 확대되기 전에 중요한 기사를 보관해두는 것이 하나의 대응 방법입니다.
해커뉴스에서 이 기사는 81표를 받으며 논의되었고, EFF 외에도 Techdirt, Nieman Journalism Lab, Boing Boing 등 여러 매체가 우려를 표명했습니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기