2026-03-17AIChatGPTClaudeGemini벤치마크맛집추천로컬검색AI활용팁

AI에게 맛집 추천받으면 10곳 중 1곳은 없는 가게입니다

구글맵 출신 창업자가 ChatGPT, Claude, Gemini, Perplexity에게 전 세계 50개 도시에서 345건의 맛집·카페·바 추천을 요청했습니다. 결과는 충격적입니다 — 가장 뛰어난 ChatGPT조차 추천 장소의 8%가 폐업했거나 아예 존재하지 않는 곳이었고...

AI에게 "강남에서 분위기 좋은 바 추천해줘"라고 물어본 적 있습니까? 결과를 믿고 찾아갔다가 이미 문 닫은 가게 앞에 서 본 경험이 한 번쯤은 있을 겁니다. 구글맵 출신 창업자가 만든 스타트업 Voygr가 전 세계 50개 도시에서 345건의 장소 추천을 AI 4종에게 요청하고, 하나하나 실제로 맞는지 검증했습니다. 총 2,415건의 평가 결과, 가장 뛰어난 AI도 추천 10곳 중 1곳은 틀렸습니다.

AI 4종 성적표 — ChatGPT가 1등, 하지만 완벽하진 않다

테스트에 참여한 AI는 ChatGPT(GPT-5.2), Gemini(Flash-2.5), Claude(Sonnet-4.5), Perplexity(Sonar Pro) 4종입니다. 웹 검색을 켠 상태와 끈 상태를 모두 테스트해서 총 7가지 설정을 비교했습니다.

AI 4종 로컬 검색 성능 비교 차트 — ChatGPT 90.7점, Gemini 86.4점, Claude 85.9점, Perplexity 80.4점

100점 만점 기준으로 ChatGPT가 90.7점으로 1위를 차지했습니다. Gemini 86.4점, Claude 85.9점, Perplexity 80.4점 순이었습니다. 하지만 90.7점이라는 건 10번 추천 중 1번은 틀린다는 뜻입니다.

더 심각한 건 일관성입니다. ChatGPT는 10번 중 7번은 90점 이상을 받지만, Perplexity는 4번 중 1번꼴로 70점 아래로 떨어졌습니다. 같은 AI라도 질문에 따라 결과 품질이 들쭉날쭉합니다.

"포틀랜드 요가 스튜디오 5곳" — 4곳이 아예 없는 가게였다

벤치마크에서 가장 충격적인 사례입니다. Claude에게 "포틀랜드 호손 지구에서 요가 스튜디오 5곳 추천해줘"라고 물었더니, 5곳 중 4곳이 완전히 지어낸 가게였습니다. 존재하지 않는 강사 이름, 가격, 수업 내용까지 자신 있게 설명했습니다.

이런 현상을 '환각(hallucination)'이라고 합니다 — AI가 모르는 걸 모른다고 하지 않고, 그럴듯하게 지어내는 것입니다. 맛집이나 카페처럼 실제로 찾아가야 하는 정보에서 이런 일이 벌어지면 시간과 돈을 낭비하게 됩니다.

폐업한 식당도 자신 있게 예약 방법을 알려준다

부에노스아이레스의 레스토랑 "Proper"는 이미 영업을 종료한 곳입니다. 그런데 4개 AI 모두, 심지어 웹 검색을 켠 상태에서도 이 식당을 추천하며 예약 방법까지 친절하게 안내했습니다. "폐업했을 수 있다"는 경고는 어디에도 없었습니다.

AI별 치명적 오류 비율 차트 — Gemini 1.6%, OpenAI 4.1%, Claude 7.9%, Perplexity 12.1%(웹 검색 켠 상태)

위 차트는 치명적 오류 비율을 보여줍니다. '치명적 오류'란 가게가 아예 없거나, 폐업했거나, 엉뚱한 위치를 알려주는 경우입니다. 웹 검색을 켠 상태에서 Gemini가 1.6%로 가장 낮고, Perplexity가 12.1%로 가장 높았습니다. 웹 검색을 끄면 Claude는 21.6%까지 치솟습니다 — 추천 5곳 중 1곳이 틀리는 셈입니다.

웹 검색을 켜면 무조건 좋아질까? — 의외의 반전

웹 검색이 항상 도움이 되는 건 아닙니다. "이 식당 예약하려면 어떻게 해?"처럼 실제 행동이 필요한 질문에서는 오히려 웹 검색이 성능을 떨어뜨렸습니다.

예약·주문 같은 실행 질문에서의 점수 변화:

• ChatGPT: 검색 끔 87.8 → 검색 켬 88.9 (+1.1, 거의 차이 없음)
• Gemini: 검색 끔 84.0 → 검색 켬 78.7 (-5.3, 오히려 하락)
• Claude: 검색 끔 89.6 → 검색 켬 84.1 (-5.5, 오히려 하락)

왜 이런 일이 벌어질까요? 검색 없이 답할 때 AI는 "이렇게 하면 됩니다"라는 단계별 안내를 해줍니다. 하지만 검색을 켜면 검색 결과에서 가져온 정보 조각만 나열하고, 실제로 뭘 해야 하는지는 빠뜨리는 경향이 있습니다. ChatGPT만 유일하게 검색 결과를 안내에 자연스럽게 녹여냈습니다.

"저렴한 곳"이라고 했는데 칵테일 한 잔에 4만 원

AI가 가게를 정확하게 추천해도 다른 함정이 있습니다 — 조건을 무시하는 것입니다. 서울 강남에서 "저렴한 루프탑 바"를 물었더니, 실제로 존재하는 가게를 알려주긴 했지만 절반이 칵테일 한 잔에 3~4만 원하는 고급 라운지였습니다.

벤치마크 기준으로 ChatGPT의 조건 충족률은 85%, Perplexity는 69%에 불과했습니다. "관광객 안 가는 곳", "예약 없이 갈 수 있는 곳"처럼 '~이 아닌 곳'을 지정하는 조건에서 AI는 특히 약했습니다.

AI마다 잘하는 분야가 다르다

모든 질문에서 1등인 AI는 없었습니다. 상황에 따라 다른 AI를 쓰는 게 유리합니다.

🔍 맛집 발견·탐색: ChatGPT가 86.9점으로 가장 정확

📋 정보 확인 (영업시간, 주소 등): ChatGPT 94.7점으로 압도적

📤 친구에게 공유할 정보 정리: Gemini가 96.1점으로 1위 — 구글맵 연동 덕분

🗓️ 여행 일정 짜기: Claude가 89.2점으로 강세 — 도착 시간 역산 등 계획 수립에 특화

📞 예약·주문: ChatGPT 88.9점으로 유일하게 검색 켜도 성능 유지

한국·동남아 등 비서구권에서는 오류가 더 심하다

테스트의 70%는 미국·서유럽 이외 지역에서 진행됐습니다. 전반적인 점수 차이는 1~3점으로 크지 않았지만, 예약이 필요한 질문에서는 격차가 벌어졌습니다. AI가 학습한 데이터에 해당 지역 가게 정보가 부족하기 때문입니다.

다만 이스탄불 그랜드 바자르(99.2점)나 도쿄 지브리 미술관(98.5점)처럼 세계적으로 유명한 장소는 어디서든 정확했습니다. 문제는 동네 맛집이나 소규모 카페처럼 현지인만 아는 장소입니다.

AI 맛집 추천, 이렇게 쓰면 안전합니다

1. 반드시 교차 확인하기 — AI가 추천한 가게를 구글맵이나 네이버 지도에서 검색해서 아직 영업 중인지 확인합니다. 특히 최근 리뷰 날짜를 체크합니다.

2. 용도에 맞는 AI 고르기 — 새로운 맛집을 찾을 때는 ChatGPT, 여행 일정을 짤 때는 Claude, 가게 상세 정보가 필요하면 Gemini가 유리합니다.

3. 검색 기능은 탐색할 때만 켜기 — "어떤 가게가 있어?"라는 탐색 질문에는 검색을 켜고, "예약하려면 어떻게 해?"라는 실행 질문에는 검색을 끄는 게 나을 수 있습니다.

4. 조건은 구체적으로 — "저렴한"보다 "1인당 2만 원 이하"처럼 숫자로 기준을 제시하면 AI가 더 정확하게 필터링합니다.

5. 비서구권 정보는 특히 조심 — 한국, 동남아, 남미 등의 로컬 가게 정보는 오류 가능성이 더 높으니 현지 플랫폼(네이버, 카카오맵 등)과 병행합니다.

누가 만든 벤치마크인가

이 테스트를 수행한 Voygr는 Y Combinator 2026년 겨울 배치 출신 스타트업입니다. CEO 블라드 바스카코프는 구글맵 API 제품 전략을 이끌었고, CTO 야리크 마르코프는 애플·구글·메타에서 ML 검색 팀을 운영한 경력이 있습니다.

Voygr는 이 문제를 해결하기 위해 가게 존재 여부를 실시간으로 검증하는 API를 만들었습니다. 무료로 100건까지 검증할 수 있고, 이후에는 건당 약 5원(0.0035~0.0045달러)입니다. AI 앱을 만드는 개발자라면 전체 벤치마크 리포트를 확인해보시기 바랍니다.

AI와 바이브코딩에 대해 더 알고 싶다면 무료 학습 가이드를 확인해보시기 바랍니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독