撰寫(xiě)本文的出發(fā)點(diǎn):由于最近項(xiàng)目改版,需要用到新的域名。于是每天開(kāi)始對(duì)蜘蛛及用戶(hù)的訪問(wèn)日志進(jìn)行分析,以并發(fā)現(xiàn)不正常的請(qǐng)求及站內(nèi)錯(cuò)誤。廢話不多講,直奔主題。
步驟:
NO1、改版后服務(wù)器環(huán)境搭好,優(yōu)化好各項(xiàng)配置參數(shù)并測(cè)試好對(duì)外開(kāi)放新域名。
NO2、1-2天百度收錄、谷歌收錄。(注:在權(quán)重極高的首頁(yè)掛了一下)
NO3、10天了,百度還只收錄首頁(yè),內(nèi)頁(yè)動(dòng)也不動(dòng)。 GOOGLE已經(jīng)好幾萬(wàn)了。
NO4、觀察日志LOG,GOOGLE 全是 200 0 0 狀態(tài)碼,百度 200 0 64 全是這些狀態(tài)碼
NO5、搜索大量資料分析這些狀態(tài)碼。其中的資料主要來(lái)自A5和CHINAZ,發(fā)現(xiàn)一些根本不懂的人也在亂講,導(dǎo)致搜出來(lái)的內(nèi)容并不科學(xué)占了主導(dǎo)意思。
網(wǎng)絡(luò)上的主要意思大概有下面幾個(gè)觀點(diǎn),本人一一作出解答。
1、K站的表現(xiàn),這一說(shuō)法主要來(lái)自被K過(guò)站的站長(zhǎng),然后在散播說(shuō),只要留下200 0 64 就表示百度要K你了。
答:錯(cuò)誤,這只能說(shuō)是一種偽科學(xué)。你有啥證據(jù)?百度官方說(shuō)了嗎。我們站在科學(xué)的角度分析:200 0代表連接成功,大家都明白。后面的64 查詢(xún)MSDN后得到是網(wǎng)絡(luò)不可用。本人開(kāi)發(fā)C++ 3年,C# 4年的經(jīng)驗(yàn)判斷,出現(xiàn)這一現(xiàn)象,主要是因?yàn)榫W(wǎng)絡(luò)被重置,或者TCP通訊時(shí)哪一方主動(dòng)被斷開(kāi)。 因?yàn)楸救怂鶑氖碌墓ぷ饕步?jīng)常是網(wǎng)絡(luò)開(kāi)發(fā)。只要一方不正常斷開(kāi),另一方會(huì)導(dǎo)致異常,程序就要去做相應(yīng)的異常處理,IIS也是個(gè)程序,百度蜘蛛也是個(gè)程序。那么雙方都會(huì)去處理這個(gè)異常。其中IIS日志就會(huì)記錄200 0 64。 本人觀察正常的瀏覽器也會(huì)產(chǎn)生200 0 64 碼,原因也是如此。只要瀏覽器在DEBUG時(shí)然后中斷連接,日志就會(huì)產(chǎn)生這種狀態(tài)碼。
再說(shuō),我一個(gè)新域名,也沒(méi)有啥優(yōu)化過(guò)度,做個(gè)啥的弊,被K啥。
2、網(wǎng)絡(luò)廣為流傳的代表64位操作系統(tǒng)。
答:狗屎,滾蛋。中國(guó)的互聯(lián)網(wǎng)正是因?yàn)橛辛四銈冞@些人,才會(huì)有那么多的垃圾彈窗。
3、GZIP優(yōu)化后,導(dǎo)致這一情況產(chǎn)生。
答:本人著重針對(duì)這一點(diǎn)進(jìn)行分析,GZIP的原理不說(shuō)了,為什么做也不說(shuō)了。那么GOOGLE,和市面上大多數(shù)瀏覽器也是支持GZIP的,百度的蜘蛛也是支持GZIP的。這一點(diǎn)可以從百度的官方得到認(rèn)可,百度官方的搜索引擎優(yōu)化指南也提倡這一做法。本人的服務(wù)器已經(jīng)開(kāi)啟GZIP,得到的狀態(tài)碼大多數(shù)如下:
2013-03-23 00:11:18 W3SVC766747422 113.10.187.98 GET http://http://www.yeencms.com/r_1 80 - 123.125.71.98 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
2013-03-23 00:18:26 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/sf/r_3- 80 - 220.181.108.181 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
2013-03-23 01:37:23 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/sf/r_2 80 - 123.125.71.56 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
于是本人關(guān)閉GZIP進(jìn)行跟蹤觀察,第二天發(fā)現(xiàn)的日志如下:
2013-03-24 01:46:05 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/r_6 80 - 220.181.108.165 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0
2013-03-24 01:46:08 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/r_4 80 - 123.125.71.16 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0
2013-03-24 01:38:54 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/r_5 80 - 123.125.71.114 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0
為什么會(huì)這樣子呢?我的分析如下:
1、百度在請(qǐng)求頁(yè)面內(nèi)容的時(shí)候,得到GZIP加密串,然后進(jìn)行解密。這一過(guò)程沒(méi)有及時(shí)的將剩余的資源讀取完畢就干自己的事了。導(dǎo)致服務(wù)方出現(xiàn)異常,所以產(chǎn)生了網(wǎng)絡(luò)被重置,網(wǎng)絡(luò)名不可用的日志。 GOOGLE這一方面做的非常好,完全按照流程辦事。 其實(shí)這也是沒(méi)有關(guān)系的。因?yàn)榘俣纫呀?jīng)得到了自己想要的內(nèi)容。
2、百度在請(qǐng)求頁(yè)面內(nèi)容的時(shí)候,得到GZIP加密串,解密失敗。哈哈。這說(shuō)不過(guò)去吧。。。。這正是廣大站長(zhǎng)最擔(dān)心的,百度也沒(méi)有解釋。我認(rèn)為這點(diǎn)倒不致于。
3、有些人說(shuō),我沒(méi)有啟用GZIP為什么也會(huì)有200 0 64 ,因?yàn)橹┲朐谧ツ愕膬?nèi)容的時(shí)候,你的內(nèi)容沒(méi)有發(fā)生變化,它只判斷內(nèi)容流的前部分就直接關(guān)閉這次通訊。導(dǎo)致你的服務(wù)器程序出現(xiàn)網(wǎng)絡(luò)不可用或者網(wǎng)絡(luò)名不存在,也就是64。其實(shí)百度這么做是為了提高抓取效率。
通過(guò)本人的分析,推薦大家關(guān)閉GZIP先。其實(shí)也就是個(gè)心理有個(gè)放心。什么網(wǎng)上所謂的K站前兆,64位系統(tǒng)都是沒(méi)有證據(jù)的,不必理會(huì)。
另,根據(jù)本人的親測(cè),百度確實(shí)有個(gè)新站考察期,時(shí)間為,1周-2月不等。