blogspot.com-GA4

星期四, 12月 25, 2008

告知網路搜索引的文件 Robots.txt - 網路搜尋技術

今天在跟朋友聊天的時候聊到了,最近google 就是因為搜尋功能太強了,反而造成小網站入口網,流量不大,但是內容都被google 搜尋出來,大家都只看內頁,反而造成小網站的可見度降低,但是內容都暴光的問題,因此得知了一種網路默許搜索文件「robots.txt」

以下是簡單的說明:

robots.txt 是以簡單的 ASCII文字檔 robots.txt 以此小寫字母的文件檔案存放於網站根目錄中,告知進入的網路搜尋引擎,網站裡面可以被搜詢和禁止的內容部份,下面稍微簡單列一下用法:

1. 最簡單的網頁告知禁止抓取內容
<meta name="robots" content="noindex,nofollow" />

這個協定也不是一個規範,而只是約定俗成的,通常搜索引擎會識別這個元資料,不索引這個頁面,以及這個頁面的鏈出頁面。



2. 使用robots.txt 規範

讓所有機器人訪問所有檔因為通配符"*"明所有機器人:
User-agent: *
Disallow:


攔截所有的機器人:
User-agent: *
Disallow: /


禁止所有機器人訪問特定目錄:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/


僅禁止壞爬蟲訪問特定目錄:
User-agent: BadBot
Disallow: /private/



相關資料
維基百科
Googlebot

沒有留言: