光言光語: 告知網路搜索引的文件 Robots.txt

星期四, 12月 25, 2008

告知網路搜索引的文件 Robots.txt - 網路搜尋技術

今天在跟朋友聊天的時候聊到了，最近google 就是因為搜尋功能太強了，反而造成小網站入口網，流量不大，但是內容都被google 搜尋出來，大家都只看內頁，反而造成小網站的可見度降低，但是內容都暴光的問題，因此得知了一種網路默許搜索文件「robots.txt」

以下是簡單的說明：

robots.txt 是以簡單的 ASCII文字檔 robots.txt 以此小寫字母的文件檔案存放於網站根目錄中，告知進入的網路搜尋引擎，網站裡面可以被搜詢和禁止的內容部份，下面稍微簡單列一下用法：

1. 最簡單的網頁告知禁止抓取內容
<meta name="robots" content="noindex,nofollow" />

這個協定也不是一個規範，而只是約定俗成的，通常搜索引擎會識別這個元資料，不索引這個頁面，以及這個頁面的鏈出頁面。

2. 使用robots.txt 規範

讓所有機器人訪問所有檔因為通配符"*"明所有機器人：
User-agent: *
Disallow:

攔截所有的機器人：
User-agent: *
Disallow: /

禁止所有機器人訪問特定目錄：
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

僅禁止壞爬蟲訪問特定目錄：
User-agent: BadBot
Disallow: /private/

相關資料
‧維基百科
‧Googlebot

沒有留言:

發佈留言

光言光語

blogspot.com-GA4

星期四, 12月 25, 2008

告知網路搜索引的文件 Robots.txt - 網路搜尋技術

沒有留言:

追蹤者