김과장
AI 뉴스 목록
2026-03-19AI 학습 데이터무료 도구데이터 분석해커뉴스HuggingFace오픈소스

내 AI가 실리콘밸리 20년치 기술 대화를 읽는다 — 4700만 건 무료 데이터 공개

실리콘밸리 핵심 기술 커뮤니티 해커뉴스의 20년치 대화 4736만 건이 HuggingFace에 무료 공개됐습니다. 다운로드 없이 브라우저에서 바로 분석 가능하고, AI 학습 데이터로도 활용할 수 있습니다.


실리콘밸리 스타트업 투자사 Y Combinator가 운영하는 해커뉴스(Hacker News)는 전 세계 개발자, 창업자, 투자자들이 기술 뉴스를 공유하고 토론하는 곳입니다. ChatGPT부터 블록체인까지, 모든 기술 트렌드가 가장 먼저 논의되는 장소로 유명합니다. 이 커뮤니티의 2006년 10월부터 2026년 3월까지 20년치 대화 전체가 무료 데이터셋으로 공개됐습니다. 해커뉴스에서 304점, 133개의 댓글을 받으며 큰 관심을 끌었습니다.

HuggingFace에 공개된 해커뉴스 아카이브 데이터셋

4736만 건의 데이터, 숫자로 보는 기술 세계의 20년

OpenIndex 팀이 만든 이 데이터셋은 HuggingFace에서 무료로 제공됩니다. 규모부터 놀랍습니다.

데이터셋 핵심 수치
• 전체 항목: 4,736만 건 (이야기 12.7% + 댓글 87.2% + 채용공고·투표 0.1%)
• 기간: 2006년 10월 ~ 2026년 3월 (약 20년)
• 용량: 11.6GB (Zstandard 압축)
• 업데이트 주기: 5분마다 실시간
• 라이선스: ODC-By v1.0 (출처만 밝히면 자유롭게 사용 가능)

20년간 가장 많이 공유된 웹사이트도 흥미롭습니다.

공유 도메인 TOP 5
1위 github.com — 19만 7,214건
2위 youtube.com — 13만 4,767건
3위 medium.com — 12만 4,527건
4위 nytimes.com — 7만 7,635건
5위 wikipedia.org — 5만 4,377건

GitHub이 압도적 1위라는 점은 해커뉴스 커뮤니티의 성격을 잘 보여줍니다. 오픈소스 프로젝트가 이 커뮤니티의 핵심 화폐인 셈입니다.

그 외에도 인상적인 숫자가 많습니다.

• 1,000점 이상 받은 글: 2,169개 — 전체 이야기의 0.04%만이 '대박'을 침
• 역대 최고 점수: 6,015점
• 평균 점수: 1.5점 / 중간값: 0점 — 대부분의 글은 관심을 받지 못한다는 뜻
• 이야기 당 평균 댓글: 23.9개
• 가장 활발했던 해: 2023년 (460만 건)

프로그램 설치 없이 브라우저에서 바로 분석하는 방법

이 데이터셋의 가장 큰 매력은 다운로드 없이도 바로 분석할 수 있다는 점입니다. 세 가지 방법이 있습니다.

1. HuggingFace SQL Console — 브라우저만 있으면 된다

HuggingFace의 SQL Console(데이터를 검색 명령어로 찾는 도구)을 사용하면, 설치 없이 브라우저에서 바로 데이터를 조회할 수 있습니다. 아래는 실제 SQL Console 인터페이스 화면입니다.

HuggingFace SQL Console 인터페이스 — 브라우저에서 바로 데이터를 조회할 수 있다

예를 들어 '역대 가장 많은 점수를 받은 글 20개'를 찾으려면 아래 명령어를 복사해서 붙여넣으면 됩니다.

SELECT id, title, score, url, time
FROM read_parquet('hf://datasets/open-index/hacker-news/data/*/*.parquet')
WHERE type = 1 AND title != ''
ORDER BY score DESC
LIMIT 20;

'AI'라는 단어가 언제부터 급증했는지도 한 줄로 알 수 있습니다.

# 연도별 AI 관련 글 추이
SELECT extract(year FROM time) AS year, count(*) AS mentions
FROM read_parquet('hf://datasets/open-index/hacker-news/data/*/*.parquet')
WHERE type = 1 AND lower(title) LIKE '%artificial intelligence%' OR lower(title) LIKE '% ai %'
GROUP BY year
ORDER BY year;

2. Python — 코드 3줄이면 충분하다

파이썬을 쓸 수 있다면 HuggingFace의 datasets 라이브러리로 바로 접근할 수 있습니다.

pip install datasets
from datasets import load_dataset

# 전체 데이터를 다운로드 없이 스트리밍
ds = load_dataset("open-index/hacker-news", split="train", streaming=True)
for item in ds:
    print(item["id"], item["title"])

# 2025년 데이터만 가져오기
ds_2025 = load_dataset(
    "open-index/hacker-news",
    data_files="data/2025/*.parquet",
    split="train",
)
print(f"{len(ds_2025):,}개 항목")

3. ChatGPT / Claude 데이터 분석 — 코딩 없이 말로 분석한다

코딩이 어렵다면, ChatGPT Plus의 '데이터 분석' 기능이나 Claude의 코드 실행 기능을 활용할 수 있습니다. HuggingFace에서 원하는 기간의 Parquet 파일을 내려받아 업로드한 뒤, "이 데이터에서 가장 많이 언급된 기술 키워드를 뽑아줘" 같은 자연어 질문을 하면 됩니다.

AI 연구자와 데이터 분석가에게 이 데이터가 특별한 이유

이 데이터셋이 일반적인 웹 크롤링 데이터와 다른 점은 품질입니다.

AI 학습 데이터로서의 강점
커뮤니티 큐레이션 — 투표 시스템으로 저품질 콘텐츠가 자동으로 걸러진다
87%가 댓글 — 단순 링크 공유가 아닌 깊이 있는 기술 토론이 풍부하다
20년치 시간 축 — 기술 트렌드의 흥망성쇠를 연구하기에 최적이다
삭제·차단 메타데이터 포함 — 콘텐츠 관리(moderation) 연구에도 활용 가능하다
5분마다 실시간 업데이트 — 과거 데이터뿐 아니라 지금 이 순간의 트렌드도 잡을 수 있다

활용 사례도 다양합니다. 해커뉴스 커뮤니티에서는 Gemini 임베딩 분석, 수업용 데이터 사이언스 프로젝트, 5분 단위 알림 서비스 제작 등의 아이디어가 공유됐습니다.

주의할 점: 데이터 수집과 개인정보

해커뉴스 토론에서는 데이터 수집의 합법성Y Combinator 이용약관에 대한 논쟁도 있었습니다. 데이터셋에는 작성자 이름(username)이 포함돼 있어, 개인정보 보호에 대한 우려가 제기됐습니다. 연구 목적으로 사용할 때는 이용약관과 개인정보 관련 규정을 확인하는 것이 좋습니다.

또한 Parquet 파일 크기의 효율성에 대해서도 의견이 갈렸습니다. 한 개발자는 ClickHouse(데이터 분석용 도구)로 같은 데이터를 5.82GB까지 압축했다며, 11.6GB는 더 줄일 수 있다고 지적했습니다.

그럼에도 20년치 기술 커뮤니티 대화를 무료로 분석할 수 있다는 점은 데이터 분석에 관심 있는 누구에게나 가치 있는 기회입니다.

관련 콘텐츠Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독