blogspot.com-GA4

星期四, 12月 25, 2008

alert加斷行符號

找了很久 ,但是...沒錯只要下面這樣子...

alert('您有*欄位未填,請回上頁填寫。\r\nItem(s) with * unfilled. Please return to the previous page.');

告知網路搜索引的文件 Robots.txt - 網路搜尋技術

今天在跟朋友聊天的時候聊到了,最近google 就是因為搜尋功能太強了,反而造成小網站入口網,流量不大,但是內容都被google 搜尋出來,大家都只看內頁,反而造成小網站的可見度降低,但是內容都暴光的問題,因此得知了一種網路默許搜索文件「robots.txt」

以下是簡單的說明:

robots.txt 是以簡單的 ASCII文字檔 robots.txt 以此小寫字母的文件檔案存放於網站根目錄中,告知進入的網路搜尋引擎,網站裡面可以被搜詢和禁止的內容部份,下面稍微簡單列一下用法:

1. 最簡單的網頁告知禁止抓取內容
<meta name="robots" content="noindex,nofollow" />

這個協定也不是一個規範,而只是約定俗成的,通常搜索引擎會識別這個元資料,不索引這個頁面,以及這個頁面的鏈出頁面。



2. 使用robots.txt 規範

讓所有機器人訪問所有檔因為通配符"*"明所有機器人:
User-agent: *
Disallow:


攔截所有的機器人:
User-agent: *
Disallow: /


禁止所有機器人訪問特定目錄:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/


僅禁止壞爬蟲訪問特定目錄:
User-agent: BadBot
Disallow: /private/



相關資料
維基百科
Googlebot

星期日, 12月 14, 2008

html 轉unicode 顯示

最近在網站中要顯示中文,於是上網找了轉碼的方式,
以下是資料來源:

Unicode and HTML

來源:JavaWorld

//將中文轉成 16 進位 unicode 表示法,會得到像是 \u4E2D
out.print("
中 16 ="+"\\u"+Integer.toHexString("中華".charAt(0) & 0xffff));

//將中文轉成 10 進位 unicode 表示法(中括弧請自行拿掉,這裡加中括號是怕此處網頁顯示不出unicode)會得到像是 [&#]20013[;] 的結果
out.print("
中 10 ="+"[&#]"+("中華".charAt(0) & 0xffff)+"[;]");
//或是 Integer.parseInt("4E2D",16) 也可以得到 20013

//將 unicode 轉回中文, 此處結果會是一個[中]字,當然,如果要將非 big 5 碼的 unicode 字寫入 ASCII 格式檔案中,是會變成亂碼的,所以輸出檔案格式要設定,如果是輸出在網頁上,就無所謂了
char c_Back = (char)Integer.parseInt("20013");
StringBuffer STSTR = new StringBuffer();
STSTR.append(c_Back);
out.print("
結果="+STSTR.toString());


發現這樣轉中文部份還是亂碼,暈了orz
不過發現在URL中,中文部份是正常的

用以下方法二:
java.net.URLEncoder.encode (tmpValue[1])
java.net.URLEncoder.encode (tmpValue[1],"UTF8")

不過還是不行阿,想想搞不好是因為在filter裡面有在進行轉碼的動作嗎?
拿掉之後測試還是失敗了,orz

是因為URL傳值的關係嗎?
被打敗了