Hyo Kim's weblog

on COMMunication.RESearch.ORG

Google sitemap generator filter 사용

요점:

filtering할 때, escapte문자가 필요없는 경우:? *\?action=*? 이 아닌,? *?action=*

내용:

구글에서 웹페이지 sitemap을 생성해주는 script를 배포합니다. Python script라서, python이 설치된 계정에서 사용이 가능한데, 이 프로그램을 이용하게 되면 복잡한 웹페이지의 sitemap을 기계적으로 작성해 주고, 이를 google에 알릴 수 있습니다. 검색에 인덱스되기가 용이하도록 하는 SEO의 작업 정도로 이해하면 되겠습니다. 현재 이 블로그 프로그램인 Wordpress의 경우에는 sitemap을 작성해 주는 plugin이 존재하기 때문에 필요가 없지만, 다른 사이트인 커뮤니케이션연구위키 사이트의 sitemap은 자동생성되지 않기 때문에 이 스크립트를 다운로드 받아서 사용해 보았습니다.

스크립트 다운로드 사이트는 아래의 URL입니다:

http://sourceforge.net/project/showfiles.php?group_id=137793&package_id=153422

스크립트 사용을 위해서 config.xml이라는 파일을 자신의 시스템에 맞도록 수정해 주어야 하는데, 이 때, 필요없는 페이지들을 sitemap에 포함시키지 말라는 filter 에 대한 지정을 해주는 것이 좋습니다. 예를 들면, wiki 와 같은 dynamic web site는? 웹페이지 URL다음에 ?action=edit ; ?action=diff; ?action=print 등등과 같은 옵션이 붙는 경우가 많은데, 이런 페이지들은 사실 색인이 될 필요가 없기 때문입니다.? 즉 같은 페이지라도

http://wiki.commres.org/MultipleRegression 이라는 페이지가 존재하며, 이를 editing하거나 print하기 등을 위한 스크립트는 ?action 옵션이 이용되어 구현됩니다. 이 옵션들을 가르키는 페이지는 서치엔진에 의해서 indexing될 필요가 없습니다.

많은 도움이 된 사이트는, 위에서 언급한 Google의 웹마스터를 위한 설명페이지와 함께,

가 있습니다만, 내가 원하는 filtering에 대한 묘사가 없어서 약간은 시행착오를 격었습니다.

  • <!– Exclude URLs within UNIX-style hidden files or directories?????? –>
    <filter action=”drop” type=”regexp” pattern=”/\.[^/]*” />
  • <!– Exclude URLs that end with a ‘~’?? (IE: emacs backup files)????? –>
    <filter? action=”drop”? type=”wildcard”? pattern=”*~”?????????? />
    <filter? action=”drop”? type=”wildcard”? pattern=”*,v”?????????? />
  • <filter action=”drop” type=”wildcard” pattern=”*\?action=*” />

위에서 처음 다섯 줄은 이해하기가 직관적이고 쉬운데, 마지막 라인의 “*\?action=*” 에서 ? 라는 문자에서 벗어나기 위해서 \ 기호를 붙이는 것이 당연하다고 생각하였지만, 막상 sitemap을 생성하고 보니, 인덱싱에서 제외되지 않았습니다. 그런데, 막상

<filter action=”drop” type=”wildcard” pattern=”*?action=*” />

와 같이 ? 문자를 제외하지 않고 (escape처리 하지 않고), 그냥 기록하니, 모두 제외 됩니다. 이제 2,000페이지 인덱스가 아닌, 500여 페이지 인텍스로 큰 문제 없이 인덱싱된 sitemap.xml.gz. 파일을 얻을 수 있었습니다.

Tagged as: , , ,

Leave a Response