블로그스팟(Blogger)에서 robots.txt 설정 및 등록 시 문제점 분석
오늘은 블로거의 관린자 설정단계에서 제공되는 robots.txt 설정에 대해서
알어보는 시간입니다. Blogger(블로그스팟) 플랫폼에서 커스텀 robots.txt를
활성화하고 등록할 때 마주치는 문제를 하나 하나 알아보겠습니다.
이 설정은 Google Search Console(GSC)을 통해 제출된 내용으로, 검색엔진 크롤러(봇)가 사이트를 크롤링할 때 허용/차단 규칙을 지정하는 파일입니다.
주요 내용:
- User-agent: * (모든 크롤러 대상)
- Allow: / (전체 사이트 허용)
- Sitemap: https://www.ganatoday.kr/sitemap.xml
- Sitemap: https://ganatoday.kr/sitemap.xml (www와 non-www 버전 모두 지정)
이 설정은 기본적으로 Blogger의 커스텀 robots.txt 기능을 사용한 것으로,
검색엔진(특히 Googlebot)이 사이트를 자유롭게 크롤링하도록 허용하면서
사이트맵을 자동으로 안내하는 구조입니다. 질문한번 하겠습니다.
이 설정을 등록했을 때 문제가 없는지와 크롤러 및 색인 생성에 대한 Blogger
내용 설명을 순서대로 설명하겠습니다. 분석은 Google 공식 가이드라인과 Blogger
지원 문서, SEO 최적화 사례를 기반으로 하겠습니다.
1. 이런 설정을 해서 robots.txt를 등록했을 때 문제는 없는가?
전반적으로 큰 문제는 없습니다. 이 설정은 SEO(검색엔진 최적화)에
유리한 기본 구조로, Googlebot 등 주요 크롤러가 사이트를 효율적으로
크롤링하고 색인(인덱싱)할 수 있도록 돕습니다. 그러나 몇 가지 잠재적 주의점과
개선 사항이 있습니다. 아래에서 상세히 설명하겠습니다.
긍정적인 점 (문제 없음 이유):
- 전체 허용(Allow: /): 사이트의 모든 페이지를 크롤링하도록 허용하므로, 블로그 포스트나 페이지가 검색 결과에 잘 노출될 수 있습니다. Blogger의 기본 설정도 이를 따르기 때문에, 새로운 콘텐츠가 빠르게 색인될 가능성이 높습니다.
- Sitemap 지시어(Sitemap: ) 등록: robots.txt에 사이트맵 URL을 직접 포함하면, 크롤러가 자동으로 사이트맵을 발견하고 처리합니다. 이는 GSC에서 별도로 사이트맵을 제출하지 않아도 검색엔진이 사이트 구조를 쉽게 이해하도록 돕습니다. 제공된 두 개의 사이트맵 URL(www와 non-www)은 중복 색인을 방지하고, 커스텀 도메인(ganatoday.kr) 사용자에게 적합합니다. Google은 이를 지원하며, 크롤링 효율을 높여줍니다.
- Blogger 호환성: Blogger는 커스텀 robots.txt를 지원하며, GSC와 연동 시 자동으로 업데이트됩니다. 등록 후 GSC의 "robots.txt 테스터" 도구로 확인하면, Googlebot이 제대로 해석하는지 검증할 수 있습니다. 실제로 많은 Blogger 사용자들이 이와 유사한 설정으로 성공적으로 색인하고 있습니다.
- SEO 이점: 이 설정은 크롤 예산(crawl budget, Google이 사이트를 방문하는 횟수 제한)을 효율적으로 사용합니다. 불필요한 페이지(예: 검색 페이지)를 차단하지 않았지만, 기본적으로 Blogger의 동적 뷰나 아카이브가 잘 처리됩니다.
잠재적 문제점 및 주의사항:
- www vs non-www 중복: 두 사이트맵을 모두 지정한 것은 좋지만, 사이트가 www와 non-www를 모두 지원하지 않거나 리다이렉트(redirect)가 제대로 설정되지 않았다면, Google이 이를 중복으로 인식할 수 있습니다. 결과적으로 색인 지연이나 중복 콘텐츠 문제가 발생할 수 있습니다.
- 해결: GSC에서 "사이트맵" 섹션으로 제출할 때 하나의 주요 URL(예: https://ganatoday.kr/sitemap.xml)을 우선 사용하세요. .htaccess나 Blogger 설정에서 www를 non-www로 리다이렉트하는 규칙을 추가하면 안전합니다.
- Blogger의 기본 제한: Blogger는 호스팅 플랫폼이므로, robots.txt가 직접 서버 루트에 업로드되지 않고 플랫폼 내에서 관리됩니다. 커스텀 설정 시 오타나 잘못된 URL(예: sitemap.xml이 실제로 존재하지 않음)이 있으면 크롤러가 무시할 수 있습니다.
- 확인 방법: 브라우저에서 https://ganatoday.kr/robots.txt를 직접 열어 내용을 확인하세요. GSC의 "robots.txt 보고서"에서 오류(예: "Blocked by robots.txt")를 모니터링하세요. 만약 사이트맵이 404 오류라면, Blogger 대시보드 > 설정 > 크롤러 및 색인 > 사이트맵 생성을 확인하세요.
- 색인 지연 가능성: robots.txt 등록 후 즉시 색인이 되지 않을 수 있습니다. Google은 크롤링을 며칠~몇 주 소요되며, 사이트가 신규이거나 트래픽이 적으면 더 오래 걸립니다. GSC에서 "URL 검사" 도구로 개별 페이지를 요청(indexing 요청)할 수 있지만, 이는 보장되지 않습니다.
- 문제 발생 시: GSC에서 "차단된 리소스"나 "크롤 오류"를 확인하세요. 만약 이미지나 JS 파일이 차단되었다면(기본 설정에서 발생 가능), 색인 품질이 떨어질 수 있습니다.
- 기타 크롤러 호환성: Google은 robots.txt를 잘 따르지만, 다른 검색엔진(Bing, Yandex)은 해석이 다를 수 있습니다. 또한, 악성 크롤러는 무시할 수 있으니, 민감한 콘텐츠는 noindex 메타 태그로 추가 보호하세요.
- Blogger 특화 문제: Blogger 블로그는 때때로 모바일 뷰(?m=1 파라미터)로 인한 리다이렉트 오류가 발생해 색인이 지연될 수 있습니다. 이는 Googlebot Smartphone가 데스크톱 URL을 크롤링할 때 혼란이 생기는 문제로, 최근 업데이트로 개선되었지만 여전히 발생합니다.
전체 평가:
문제 가능성은 낮지만(약 90% 이상 안전), GSC에서 1-2주 모니터링 후 "색인
상태" 보고서를 확인하세요. 만약 색인되지 않은 페이지가 많다면, robots.txt를
재검토하거나 GSC에 사이트맵을 별도 제출하세요. 큰 이슈 없이 운영 가능하며,
오히려 SEO를 강화합니다.
2. 크롤러 및 색인 생성에 대한 항목, 블로그스팟(Blogger)의 내용
설명Blogger의 "크롤러 및 색인 생성" 설정은 블로그 대시보드 > 설정 >
크롤러 및 색인 섹션에 있습니다. 이는 검색엔진이 블로그를 크롤링(방문해 내용
수집)하고 색인(검색 데이터베이스에 저장)하도록 제어하는 기능입니다.
Blogger는 Google 소유 플랫폼이므로, Google Search Console(GSC)과 긴밀히
연동되어 자동으로 최적화되지만, 수동 설정으로 더 세밀한 제어가 가능합니다.
아래에서 주요 항목을 설명하겠습니다. (Google 공식 도움말과 SEO 가이드 기반)
주요 개념 설명:
- 크롤링(Crawling): 검색엔진 봇(Googlebot 등)이 블로그 페이지를 방문해 링크를 따라 내용을 수집하는 과정. Blogger는 자동으로 피드를 통해 최근 25개 포스트를 제출하지만, 커스텀 설정으로 전체를 최적화할 수 있습니다.
- 색인 생성(Indexing): 크롤링된 내용을 Google의 검색 인덱스에 저장하는 과정. 색인되면 검색 결과에 노출됩니다. Blogger 블로그는 기본적으로 공개되면 색인되지만, 설정에 따라 속도가 달라집니다.
- Blogger의 역할: Blogger는 호스팅 플랫폼으로, robots.txt나 메타 태그를 통해 크롤러를 안내합니다. GSC 연동 시 색인 상태를 실시간 확인할 수 있습니다.
Blogger 대시보드의 크롤러 및 색인 생성 항목 상세 설명:
Blogger 대쉬보드 '설정' > "크롤러 및 색인"으로 이동하면 다음 옵션이 있습니다. 각
항목의 목적과 추천 설정을 표로 정리합니다.
항목 이름 | 설명 | 추천 설정 및 이유 |
---|---|---|
검색 엔진에 블로그 표시 허용 (Show your blog to search engines? / Visible to search engines) |
블로그를 검색엔진에 공개할지 여부. "예"로 하면 크롤링 허용, "아니오"로 하면 비공개(색인 안 됨). | "예"로 설정. 기본값이지만, 비공개 블로그라면 "아니오" 선택. 색인 시작에 필수. |
커스텀 robots.txt (Custom robots.txt) |
robots.txt 파일을 직접 작성/편집. 크롤러가 어떤 페이지를 허용/차단할지 지정. Sitemap 지시어도 추가 가능. | 활성화하고, 제공된 설정처럼 작성. 예: User-agent: * Allow: / Sitemap: [URL]. 아카이브나 검색 페이지(/search)는 Disallow: /search로 차단하면 크롤 예산 절약(중복 콘텐츠 방지). |
커스텀 robots 헤더 태그 (Custom robots header tags) |
페이지별 메타 태그로 색인 제어. 홈페이지, 아카이브/검색 페이지, 포스트/페이지 태그를 설정. | 활성화. - 홈페이지: all + noodp (전체 허용). - 아카이브/검색: noindex + noodp (중복 방지). - 포스트/페이지: all + noodp (색인 허용). 이는 페이지 수준에서 크롤링/색인을 세밀하게 제어. |
Google Search Console 연동 (Google Search Console) |
GSC와 블로그 연결. 색인 상태, 오류 확인, 사이트맵 제출 가능. | GSC 계정 생성 후 연결. 사이트맵(sitemap.xml)을 제출하면 크롤링 속도 ↑. URL 검사 도구로 개별 포스트 색인 요청. |
Blogger에서 크롤링/색인 최적화 팁:
- 사이트맵 생성 및 제출: Blogger는 기본 사이트맵(https://ganatoday.kr/sitemap.xml)을 지원합니다. GSC > 사이트맵 > "sitemap.xml" 제출. 페이지 전용 사이트맵(sitemap-pages.xml)도 추가하면 포스트 외 페이지 색인 향상.
- 색인 속도 높이기:
- 고품질 콘텐츠: 키워드 최적화, 내부 링크 추가.
- GSC 사용: "URL 검사"로 새 포스트 요청. 색인되지 않은 이유(예: robots.txt 차단) 확인.
- 크롤 예산 관리:
- 불필요한 페이지(아카이브, 태그)를 robots.txt로 차단.
- 예: Disallow: /20* (연도별 아카이브 차단).
- 문제 해결:
- GSC의 "페이지 색인" 보고서에서 "robots.txt로 차단됨" 오류 확인.
- Blogger 블로그는 모바일 최적화로 인해 리다이렉트 오류가 발생할 수 있으니, GSC 모바일 사용성 보고서 확인.
- Blogger 한계:
- 플러그인 없음(WordPress와 달리).
- 따라서 robots.txt와 메타 태그가 핵심.
- 신규 블로그는 1-2주 기다린 후 GSC로 모니터링.
만약 이 설정으로 운영 중이라면, GSC를 통해 색인 상태를 주기적으로 확인 합니다. 추가 문제가 있으면 GSC 도움말이나 Blogger 커뮤니티를 참조하시고, 댓글을 남겨주시기 바랍니다.
더
구체적인 조언이 필요하시면 블로그 URL이나 GSC 스크린샷을 공유해주세요!
댓글과 메일로 소통해주세요. 지금까지 블로거 가이드였습니다.
0 댓글