久久久久久精品免费免费ss|午夜欧美一级特黄大片|18禁黄无遮挡免费网站大全欲色|亚洲A级毛片,黄色国产A骗视频,一二三级黄片,毛片视频在线播放网址网站

當(dāng)前位置:100EC>信息圖>識別搜索引擎爬蟲真?zhèn)蔚姆椒\析
識別搜索引擎爬蟲真?zhèn)蔚姆椒\析
發(fā)布時間:2010年02月25日 09:59:35

(電子商務(wù)研究中心訊)  相信不少網(wǎng)站對搜索引擎爬蟲都是又愛又恨,因為其中不僅有些爬蟲不守規(guī)矩,還有人冒充爬蟲對網(wǎng)站進(jìn)行瘋狂的掃描。

  做的比較好的爬蟲抓取頻率都比較合理,對網(wǎng)站資源消耗比較少,Google Spider會根據(jù)網(wǎng)頁的下載速度等因素進(jìn)行抓取速度的動態(tài)調(diào)整,你可以通過Webmaster Tools來調(diào)整Spider的抓取速度。

  Google_Webmaster_Tools_Settings

  很多糟糕的網(wǎng)絡(luò)爬蟲,經(jīng)常并發(fā)幾十上百個請求循環(huán)重復(fù)抓取。一個“爬蟲”先是將PageNo遞增到無窮大——被封,過了4個小時,“爬蟲”又回來了,這次程序倒是改進(jìn)了不少,通過分析網(wǎng)頁內(nèi)部的鏈接進(jìn)行抓取,可是沒過多久發(fā)現(xiàn)總是抓取那幾個特定的頁面,原來被網(wǎng)頁內(nèi)部鏈接套住,程序進(jìn)入了死循環(huán),只能封殺。

  網(wǎng)上也出現(xiàn)了很多如何封殺惡意爬蟲的方法。常見的就是根據(jù)UserAgent中的標(biāo)識進(jìn)行識別封殺,但是道高一尺魔高一丈,接下來就有人偽造User-Agent,偽裝成各大搜索引擎的爬蟲進(jìn)行抓取。

  目前的做法是根據(jù)UserAgent進(jìn)行判斷,如果是真正的搜索引擎爬蟲,那么就放過;如果發(fā)現(xiàn)是偽造的就堅決封殺。剩余的正常UserAgent的訪問則通過限制IP并發(fā)請求次數(shù)來限制。

  那么問題就出現(xiàn)了,如何才能正確識別搜索引擎爬蟲的真?zhèn)?,其實一些大型的搜索引擎商都已?jīng)提供了相關(guān)的方法,那就是反向DNS驗證(Reverse DNS Lookup)。

  拿Google Spider舉個例子:

  Google:www.google.com/support/webmasters/bin/answer.py?answer=80553

  Yahoo:http://www.ysearchblog.com/2007/06/05/yahoo-search-crawler-slurp-has-a-new-address-and-signature-card/

  Bing(MSN):cn.bing.com/community/blogs/search/archive/2006/11/29/search-robots-in-disguise.aspx

  可喜可賀的是baidu的2個月前爬蟲也開始遵守這一“潛規(guī)則”,雖然沒有在任何網(wǎng)頁公開此消息,但經(jīng)過測試,實際上是可行的。(編選:網(wǎng)經(jīng)社)

浙江網(wǎng)經(jīng)社信息科技公司擁有18年歷史,作為中國領(lǐng)先的數(shù)字經(jīng)濟(jì)新媒體、服務(wù)商,提供“媒體+智庫”、“會員+孵化”服務(wù);(1)面向電商平臺、頭部服務(wù)商等PR條線提供媒體傳播服務(wù);(2)面向各類企事業(yè)單位、政府部門、培訓(xùn)機構(gòu)、電商平臺等提供智庫服務(wù);(3)面向各類電商渠道方、品牌方、商家、供應(yīng)鏈公司等提供“千電萬商”生態(tài)圈服務(wù);(4)面向各類初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務(wù)。

網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫(DATA.100EC.CN,免費注冊體驗全庫)基于電商行業(yè)18年沉淀,包含100+上市公司、新三板公司數(shù)據(jù),150+獨角獸、200+千里馬公司數(shù)據(jù),4000+起投融資數(shù)據(jù)以及10萬+互聯(lián)網(wǎng)APP數(shù)據(jù),全面覆蓋“頭部+腰部+長尾”電商,旨在通過數(shù)據(jù)可視化形式幫助了解電商行業(yè),挖掘行業(yè)市場潛力,助力企業(yè)決策,做電商人研究、決策的“好參謀”。

【關(guān)鍵詞】 谷歌微軟bing百度
【投訴曝光】 更多>

【版權(quán)聲明】秉承互聯(lián)網(wǎng)開放、包容的精神,網(wǎng)經(jīng)社歡迎各方(自)媒體、機構(gòu)轉(zhuǎn)載、引用我們原創(chuàng)內(nèi)容,但要嚴(yán)格注明來源網(wǎng)經(jīng)社;同時,我們倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請將版權(quán)疑問、授權(quán)證明、版權(quán)證明、聯(lián)系方式等,發(fā)郵件至NEWS@netsun.com,我們將第一時間核實、處理。

        平臺名稱
        平臺回復(fù)率
        回復(fù)時效性
        用戶滿意度
        微信公眾號
        微信二維碼 打開微信“掃一掃”
        微信小程序
        小程序二維碼 打開微信“掃一掃”