단 한 줄의 실수로 사이트가 사라졌다? robots.txt, 함부로 수정하면 안 되는 이유 (웹마스터 이야기)

단 한 줄의 실수로 사이트가 사라졌다? robots.txt, 함부로 수정하면 안 되는 이유 (웹마스터 이야기)

안녕하세요, 웹마스터 시리즈를 통해 SEO의 다양한 기술적 문제를 다루고 있는 김 웹마스터입니다. 오늘은 제가 초보 시절 겪었던, 그리고 많은 웹마스터들이 한 번쯤 경험했을 법한 'robots.txt' 파일에 얽힌 아찔한 이야기를 들려드릴까 합니다.

로봇텍스트

1. 대형 사고의 시작: "단순한 파일 수정"이라는 착각

언젠가 제 블로그에 기술적인 문제가 발생했습니다. 특정 카테고리 페이지가 불필요하게 검색에 노출되는 것이었죠. 서치 콘솔의 색인 보고서에는 robots.txt에 의해 차단됨이라는 메시지가 뜨더군요.

저는 속으로 "음, robots.txt 문제군. 간단히 수정하면 되겠지"라고 생각했습니다. 이 파일은 단순히 검색엔진에게 '이 폴더는 보지 마세요'라고 알려주는 텍스트 파일이라고만 알고 있었거든요. 저는 문제를 해결한답시고 코드를 수정했습니다. 불필요한 폴더를 차단한다는 코드를 넣고, 기존에 있던 다른 코드들을 깔끔하게 정리했습니다.

그리고 자신만만하게 파일을 저장하고 구글 서치 콘솔에서 '색인 생성 요청' 버튼을 눌렀습니다. 며칠 뒤, 제 블로그의 검색 유입량이 90% 이상 급감하는 것을 보고 깜짝 놀랐습니다.

2. 한 줄의 마법이 불러온 대참사: Disallow: /

그제서야 robots.txt 파일을 다시 열어보고는 얼굴이 새하얗게 질렸습니다. 저는 무심코 이렇게 한 줄을 추가했던 것입니다.

User-agent: *
Disallow: /

이 코드는 '모든 검색엔진 봇(*)에게 내 웹사이트의 최상위 폴더(/) 아래에 있는 모든 것을 크롤링하지 말라'는 강력한 명령이었습니다. 저는 특정 폴더만 차단하려던 의도였지만, /라는 기호 하나가 제 사이트 전체를 구글에게서 숨겨버린 것이죠.

심지어 저는 robots.txt 파일에 대한 테스트도 하지 않고, 수정 후 재색인 요청까지 보냈으니, 구글에게 "내 사이트를 검색 결과에서 지워달라"고 재촉한 꼴이었습니다.

3. 'robots.txt'는 단순한 파일이 아니다

이 뼈아픈 경험을 통해 깨달았습니다. robots.txt는 단순한 텍스트 파일이 아니라, 검색엔진의 행동을 좌지우지하는 강력한 명령서라는 것을요.

  • 실수 1: CSS, JS 파일 차단: 의도치 않게 사이트 디자인을 담당하는 CSS나 자바스크립트 파일을 차단하면, 구글 봇은 페이지를 렌더링하지 못해 '빈 페이지'로 인식하고 순위를 떨어뜨립니다.
  • 실수 2: 문법 오류: 오타나 잘못된 문법은 전체 파일의 명령을 무시하게 만들어, 의도치 않게 모든 페이지가 검색에 노출될 수 있습니다.
  • 실수 3: 혼동스러운 명령: DisallowAllow를 복잡하게 조합하면 구글 봇이 혼란을 겪어 중요한 페이지의 크롤링을 놓칠 수 있습니다.

4. 교훈과 올바른 robots.txt 관리법

제 실수담을 통해 여러분은 robots.txt를 수정할 때 다음 두 가지를 반드시 기억하시길 바랍니다.

  1. 반드시 테스트하라: 구글 서치 콘솔의 robots.txt 테스터를 사용해, 변경한 코드가 의도한 대로 작동하는지 배포 전에 먼저 확인해야 합니다.
  2. 색인과 크롤링은 다르다: robots.txt 크롤링(수집)을 막는 도구일 뿐, 색인(검색 노출) 자체를 막는 완벽한 도구는 아닙니다. 검색 노출을 확실히 막으려면 페이지 HTML에 noindex 태그를 사용하는 것이 더 효과적입니다.

robots.txt 파일은 사이트의 검색 가시성을 좌우하는 가장 강력한 도구이자, 동시에 가장 치명적인 위험 요소입니다. '나만 알 수 있는 페이지'를 숨기고 싶을 때만 신중하게 사용하시고, 가급적 건드리지 않는 것이 상책입니다.

5. robots.txt 테스터는 어디에 있나요?

서치 콘솔의 robots.txt 테스터는 웹마스터 도구의 중요한 기능 중 하나였으나, 현재는 'robots.txt 보고서'와 'URL 검사' 도구로 대체되어 통합되었습니다.  예전에 독립적인 robots.txt 테스터 도구가 있었지만, 구글 서치 콘솔이 업데이트되면서 해당 기능은 다른 메뉴에 통합되었습니다. 이제 robots.txt 관련 문제를 확인하고 테스트하려면 아래 두 가지를 활용해야 합니다.

1. [설정] > [크롤링] > [robots.txt] 보고서:

  • 이 보고서에서는 구글이 사이트에서 발견한 robots.txt 파일을 확인할 수 있습니다.

  • 파일이 정상적으로 가져와졌는지, 오류나 경고가 있는지 등을 한눈에 파악할 수 있습니다.

  • 여기서 robots.txt 파일의 내용을 직접 확인하거나, 새로운 파일을 업로드한 후 구글 봇에게 재크롤링을 요청할 수도 있습니다.

2. URL 검사 도구:

  • 서치 콘솔 상단의 검색창에 특정 URL을 입력하면, 해당 페이지의 색인 상태를 상세히 확인할 수 있습니다.

  • 여기서 '라이브 테스트'를 실행하면, 해당 URL이 현재 robots.txt 파일에 의해 차단되고 있는지 여부를 즉시 확인할 수 있습니다. 이 기능이 과거의 테스터 역할을 대신한다고 볼 수 있습니다.

따라서, robots.txt 파일을 수정하거나 새로운 규칙을 추가했다면, 파일을 업로드한 후 URL 검사 도구를 통해 테스트하는 것이 가장 확실한 방법입니다.


Google Search Console Robots.txt Tester - YouTube 이 동영상은 구글 서치 콘솔의 robots.txt 테스터 사용법을 보여주므로 관련 내용을 이해하는 데 도움이 될 수 있습니다.

처음으로

 

댓글 쓰기

0 댓글