以下是簡單的說明:
robots.txt 是以簡單的 ASCII文字檔 robots.txt 以此小寫字母的文件檔案存放於網站根目錄中,告知進入的網路搜尋引擎,網站裡面可以被搜詢和禁止的內容部份,下面稍微簡單列一下用法:
1. 最簡單的網頁告知禁止抓取內容
<meta name="robots" content="noindex,nofollow" />
這個協定也不是一個規範,而只是約定俗成的,通常搜索引擎會識別這個元資料,不索引這個頁面,以及這個頁面的鏈出頁面。
2. 使用robots.txt 規範
讓所有機器人訪問所有檔因為通配符"*"明所有機器人:
User-agent: *
Disallow:
攔截所有的機器人:
User-agent: *
Disallow: /
禁止所有機器人訪問特定目錄:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
僅禁止壞爬蟲訪問特定目錄:
User-agent: BadBot
Disallow: /private/
相關資料
‧維基百科
‧Googlebot
沒有留言:
發佈留言