구글 서치 콘솔 (Search Console) 이해하기 – 색인 생성 실패 이유찾기

구글 서치 콘솔(Search Console)을 이용하는 주된 이유는 구글 검색 엔진에 내가 작성한 글의 색인을 생성하기 위함 입니다. 그런데 구글 서치 콘솔을 이용하더라도 색인이 생성되지 않는 경우가 여럿 발생하죠. 처음 경험하시는 분들은 당황하실 수 있는데요 막상 이유를 알면 별 문제 아닌 경우가 많습니다. 이번 글에서는 구글 서치 콘솔을 이용해서 색인생성 실패 이유를 어떻게 찾는지 설명 드릴게요.

들어가기 전에

혹시 색인(Index)이나 구글 서치 콘솔이 뭘 하는 도구인지 좀 더 자세한 설명이 필요하신 분은 기존에 작성한 글을 참고해주세요. 그럼 시작하겠습니다.

색인 생성현황 살펴보기

색인-생성현황-화면
색인-생성현황

구글 서치 콘솔 색인생성 카테고리 하위에 “페이지”라는 메뉴가 있습니다. 위에 이미지에서 빨간색 박스로 표시한 메뉴인데요, 선택하시면 위와 같은 화면이 나옵니다. 현재 제 워드프레스는 85개의 페이지에 대해 색인을 생성했고, 52개의 페이지에 대해 색인을 생성하지 못했습니다. 색인을 생성하지 못한 이유는 5가지라고 화면에 나오네요. 우선 색인이 생성된 페이지가 무엇인지 확인하시려면 우측 하단 네모 박스 안에 있는 버튼을 클릭하시면 됩니다.

그리고 색인이 생성되지 않은 페이지가 있다고 해서 크게 걱정하실 필요는 없습니다. 물론 모든 페이지에 대해 색인을 생성하지 못하면 문제겠지만 일부에 대해 생성하지 못할 때는 정상적인 경우가 대부분입니다. 우리가 해야 할 일은 혹시나 정상적이지 않은 이유로 색인 생성 실패가 발생하지 않았나 살펴보는것이죠.

색인생성 불가사유 살펴보기

색인생성-불가사유-화면
색인생성-불가사유

앞서 말씀드렸던 “페이지” 메뉴에서 화면을 스크롤해서 아래로 내려보시면 위와 같은 색인생성 불가사유 리스트를 볼 수 있습니다. 여기 표에서 노란색 표시가 되어있는 “소스”라는 항목은 한번 눈여겨 봐주세요. 소스에 웹사이트라고 되어있다면 색인생성 불가사유가 해당 블로그에 있다는 이야깁니다. 만약 여기에 Google 시스템이라고 되어있다면 색인생성 불가사유가 Google에 있기 때문에 블로그 관리자가 따로 할수있는게 없습니다. 색인생성 불가사유에 대해 이어서 계속 설명드릴게요.

리디렉션이 포함된 페이지

리디렉션은 페이지 이동을 이야기 합니다. 예를들어 A라는 페이지를 입력했는데 아무 조건없이 B라는 페이지로 바로 이동한다면 A라는 페이지는 리디렉션이 포함되어 있기 때문에 색인 생성이 안됩니다. 실제로 리디렉션이 포함되어 색인 생성이 제외된 페이지를 살펴보겠습니다. 이 페이지의 URL은 다음과 같습니다.

https://logicladder.org/연금계좌-매수-주의-상품

위의 URL을 직접 입력해보시면 아시겠지만 입력하자마자 다른 페이지로 이동합니다. 이동된 페이지의 URL을 보면 다음과 같습니다.

https://logicladder.org/연금계좌-매수-주의-상품/”

혹시 두 URL의 차이를 눈치채셨나요? 네 맞습니다. URL 가장 뒤에 ‘/’가 포함된 페이지로 이동했습니다. 사실 두 URL은 본질적으로 동일하지만 워드프레스에서 URL 뒤에 ‘/’가 빠진 상태로 입력하면 ‘/’를 추가한 페이지로 이동시켜줍니다. 당연히 ‘/’가 포함된 URL은 색인이 생성되어 있기 때문에 ‘/’가 빠진 URL에 대해서는 색인생성 누락이 전혀 상관 없습니다.

URL검사결과
URL검사결과

조금전에 색인 생성이 안된 페이지를 A, 자동으로 이동된 페이지를 B라고 말씀드렸었죠. A 페이지에 대해 URL 검사를 해보면 위와 같은 화면이 나오는데요, 구글 봇이 A라는 링크를 어떻게 발견하게 됐는지는 URL 검사결과를 보면 알 수 있습니다. Sitemaps 정보에는 참조된 정보가 없다고 나오는걸 보면 A라는 링크를 Sitemaps 을 통해 알게된건 아니라는걸 알 수 있으며, 결국 참조 페이지 항목에 있는 또 다른 페이지 C에서 A라는 링크를 직접적으로 사용한것으로 보입니다. 즉 구글 봇이 C 페이지에 방문해보니 A라는 링크가 있었고, 그 링크 A에 대해 색인을 생성하려고 보니 B라는 페이지로 자동 이동되어서 색인을 생성하지 않았다 라고 정리하면 될것 같습니다.

적절한 표준 태그가 포함된 대체 페이지

  • https://xxxxxxxx.com/테스트-페이지/
  • https://xxxxxxxx.com/12/
  • https://xxxxxxxx.com/m/테스트-페이지/

이 문제는 주로 티스토리 블로그에서 많이 발생하는데요, 특정한 페이지에 접근하는 URL이 여러개가 있을 때 생기는 문제입니다. 위에 작성한 예와 같이, 어떤 페이지에 접근하는 URL이 한글 URL도 있고 숫자 URL도 있으며 모바일 웹 전용 URL도 있다면 동일 페이지에 대한 접근 방법이 3가지나 있는거죠. 이런 상황에서 구글 엔진은 대표 URL 1개만 색인을 등록하고 나머지 URL에 대해서는 “적절한 표준 태그가 포함된 대체 페이지”라는 사유로 색인을 생성하지 않습니다.

예를들어 티스토리 블로그에서 한글 URL을 사용중인데, 숫자 URL과 모바일 전용 URL이 위의 사유로 색인 생성이 안됐다면 지극히 정상적인 상황이니 고민하지 않으셔도 됩니다. 한글 URL을 사용중 이시라면 해당 페이지의 HTML 태그에 대표 URL (Canonical URL)이 한글 URL로 지정되어 있으며, 이걸 확인한 구글 엔진은 대표 URL에 대해서만 색인을 생성합니다.

robots.txt에 의해 차단됨

robots.txt-파일내용
robots.txt

블로그마다 관리하는 robots.txt 파일이 있습니다. 제 블로그의 robots.txt 파일은 위와 같은데요, 여기에 보시면 노란색 형광색 줄이 그어져 있는, Disallow 항목이 보이시죠? 즉 이 항목에 있는 URL은 접근을 불허 한다는 의미 입니다. 구글 봇이 https://logicladder.org/wp-admin 주소에 대한 색인을 생성하고 싶어도 robots.txt 파일의 Disallow 때문에 색인 생성을 할 수 없죠. 따라서 robots.txt 파일에 명시된 URL에 대해 색인 생성을 못하고 있다면 지극히 정상적인 상황 입니다.

‘NOINDEX’ 태그에 의해 제외되었습니다

NOINDEX 태그에 의해 색인생성이 안된 경우는 방금 설명드린 robots.txt에 의해 차단된것과 비슷한 상황 입니다. 단지 위의 경우는 robots.txt 파일에 명시된 URL이 차단되는 것이고 NOINDEX 태그에 의해 차단된 페이지는 각 페이지에 NOINDEX라는 태그가 포함됐기 때문입니다.

페이지에-추가된-NOINDEX-태그
페이지에-추가된-NOINDEX-태그

실제로 NOINDEX 태그에 의해 색인생성이 안된 제 블로그 페이지의 HTML을 보면 위와 같은 태그가 포함돼 있습니다. 위에 이미지를 보시고 아마 눈치 채셨을것 같은데, NOINDEX 태그는 제가 추가하지 않았습니다. 저 대신 제가 사용하는 Rank Math라는 워드프레스 플러그인이 추가 했더라고요. 그럼 플러그인이 왜 NOINDEX 라는 태그를 추가했을까요? 구글 SEO 관점에서 봤을 때 공개되면 오히려 블로그 순위에 도움이 안된다고 판단한 페이지였기 때문입니다.

Rank-Math-설정
Rank-Math-설정

Rank-Math에 위와 같은 설정이 있는데, 연결된 글이 없는 태그나 카테고리에 대해서 자동으로 NOINDEX 태그를 포함시켜주는 기능 입니다. 만약 구글 서치 콘솔에서 NOINDEX로 제외된 페이지가 모두 이와 비슷한 이유에 근거한다면 따로 걱정하실 필요는 없습니다. 오히려 블로그 지수를 높이기 위해 설정된 NOINDEX 이니까요 (저는 제가 사용하는 Rank Math를 예로 말씀드렸지만 대표적인 구글 SEO 플러그인 YOAST나 기타 유사 플러그인에도 이러한 기능이 있을 수 있습니다)

찾을 수 없음(404)

말 그대로 특정 URL을 찾을 수 없어서 색인 생성을 하지 못한 경우입니다. 만약 글을 발행하고 나서 해당 글에 대한 URL을 수정하거나 작성하신 글을 삭제하시면 이 문제가 발생할 수 있습니다. 만약 실제로 URL이 바뀌거나 해당 글이 삭제 혹은 숨김처리돼서 “찾을 수 없음(404)”문제가 발생했다면 이 문제는 그냥 무시하셔도 됩니다. 왜냐면 404 오류는 블로그의 순위나 품질 평가에 전혀 영향을 미치지 않기 때문입니다. 구글 고객센터의 설명에 의하면 그렇습니다.

맺음말

사실 제가 구글 직원이 아니기 때문에 색인 생성이 안된 모든 경우에 대한 이유를 알지 못합니다. 하지만 색인이 생성되지 않는 몇 가지 주된 이유에 대해 파악하고 있으면서, 전체적인 색인 생성 건수의 급감이나, 글을 작성해도 색인이 늘어나지 않는 이상한 상황 정도만 모니터링 해도 큰 문제는 없다고 생각합니다. 혹시 글을 보시며 궁금한 점이 있으시면 언제든 질문 주세요. 감사합니다.

관련 글

이메일 주소는 공개되지 않습니다 (필수항목 *)

guest
16 Comments
Inline Feedbacks
View all comments
토토리메

안녕하세요. 기존 22개 등록 되어있던 글 들이 14개나 내려갔습니다. 모두 NOINDEX로 내려간 상황이구요. 랭크메스 로봇메타, 글 로봇메타 둘 다 색인으로 설정 되어있구요. 페이지,카테고리 글은 중복으로 너무 노출이되서 인덱스 없음으로 설정 되어있습니다. 내려간 글 14개를 CARL+U 로 봤을 시 메타네임 로봇 모두 INDEX로 되어있는데 이런 경우는 왜 그런걸까요..? https://totorimet.com 입니다 ㅠㅠ..

토토리메

답변감사합니다 선생님! 10월 구글 잠수함 패치로 구글이 이상한거 같습니다. 카테고리, 페이지 같은경우 중복 글 노출이 싫어서 noindex로 설정되어있는데 오늘 페이지 글이 등록이 되어 있는 현상이 발생했네요. 날씨가 많이 추워지는데 감기 조심하시고 블로그 번창 하시길 바랍니다^^

예향

안녕하세요? 구글 색인이 안되어서 질문드려봅니다.
구글 서치콘솔에 색인 요청을 해서 색인이 되었던 글들이 어떤 이유에서인지 색인 생성이 줄어들었습니다. 색인 생성 글이 13개에서 3개로 줄었습니다. 구글 서치콘솔에서는 크롤링이 되었지만 현재 색인이 생성되지 않았다는게 이유입니다. 아무리 다시 색인 요청을 해도 색인이 되지 않습니다. 글을 추가로 작성해서 색인 요청을 해보아도 반영이 되지 않고요. 이런 경우 어떻게 해야하는지 아실까요? 글을 꾸준히 쓰면서 기다리면 언젠가 다시 색인이 되는건지, 어떤 조치가 필요한건지 답답한 마음에 문의 남깁니다.

예향

답변 감사합니다.
실제 제가 글을 작성하고 색인하고 싶은 글이 색인이 안되고 있습니다. 기존에 색인이 되어서 검색이 되었다가 글이 안보이게 된 기존 글들이 문제가 있을까 싶어서 모두 삭제 한 후 새로 글을 작성해서 색인 요청을 했는데도 반영이 안되고 있습니다.
구글 서치콘솔의 URL 검사 화면에서 “실제 URL 테스트”를 한 후에 ‘테스트된 페이지 보기’를 눌러서 확인해보니 ‘robots.txt에서 Googlebot이 차단됨’이라는게 떠 있더라고요.
제가 따로 한게 없는데, robot.txt가 검색을 차단한게 되는건가요?
답답한 마음에 질문을 남겨봅니다.

예향

시간을 내서 답변 주셔서 정말 감사합니다. 어디 물어볼 곳도 없고 답답했거든요.
일단 저는 워드프레스로 블로그를 운영하고 있습니다. 블로그 만든지는 얼마 안되었고요.
글을 구글 서치콘솔에서 URL 검사를 했을 때 등록할 수 있다고 나오고, 색인이 생성 가능하다고 나옵니다. 그러나 색인 요청을 하면 색인이 안됩니다. 만약 robot.txt 파일이 문제가 있으면 URL 검사를 했을 때 문제가 되어야 하는게 아닐까요?
그런데 글을 실시간 테스트를 누른 후 ‘테스트된 페이지 보기’를 눌러보면 과 이런게 떠있습니다.
이건 글과 상관없는 부분이라서 색인을 차단했다는 말이 되는걸까요?
블로그 설정에 가서 보니 robot.txt는 크게 문제가 없는 것 같아요.
정말 답답합니다.ㅠㅠ 그냥 기다리는게 답일지 모르겠습니다.ㅠ

예향

시간을 내주셔서 이렇게 빠른 답변 해주셔서 정말 감사합니다. 이렇게 알려주시는게 얼마나 큰 힘이 되는지 모르겠습니다.
제가 말씀해주신 https://블로그주소/robot.txt로 입력해서 들어가보면 ‘Oops! That page can’t be found.’ 이렇게 나옵니다.ㅠㅠ
뭐가 뭔지 정말 어렵습니다.ㅠㅠ 네이버에 색인이 되었는지 확인해보니 네이버는 색인이 되었더라고요. 만약 robot에 문제가 있다면 네이버에서도 색인이 안되어 있어야 하는거 아닌가요?
블로그 운영을 제대로 해보고 싶은데,, 너무 어렵습니다.ㅠㅠ

예향

User-agent: *
Disallow: /wp-admin/
Allow: /

이렇게 되어있습니다. 문제가 없는 것 같아요. 정말 답답합니다.ㅠㅠ
구글에 문의해볼 수는 없는거지요?

블로그 운영하시는 분들이 대단해보입니다.ㅠㅠ

예향

그런데 구글 서치콘솔에서 실시간 테스트 해본 후 ‘테스트된 글보기’를 눌르서 robot.txt.에 차단되었다는 메세지에서 robo.txt를 누르면

User-Agent: *
Allow: /ads/preferences/
Allow: /dtt/k
Allow: /gpt/
Allow: /pagead/show_ads.js
Allow: /pagead/js/adsbygoogle.js
Allow: /pagead/*/show_ads_impl.js
Allow: /static/glade.js
Allow: /static/glade/
Allow: /tag/js/
Disallow: /
Noindex: /

이렇게 나옵니다. 이 글에서 필요없는 부분을 색인하지 않았다는 말일까요?ㅠㅠ 어렵습니다.
귀한 시간 내주셔서 정말 정말 감사합니다.

예향

상세한 답변 감사합니다.
큰 도움이 되었습니다. 이것저것 더 시도해보도록 하겠습니다!!!
블로그가 더 번창하시길 바랍니다~*^^*