咨詢熱線:13843690214

龙8娱乐

發布時間:2014-12-07

robots.txt可以告訴搜索引擎您的網站哪些頁面可以被收錄,哪些頁面不可以被收錄,如果您不想讓搜索引擎收錄您網站的某些内容,請用robots.txt文件指定搜索引擎在您網站上的抓取範.txt文件。需要注意的是robots協議并非是規範,隻是行業内一個約定俗成的協議。什麼意思呢?Robots協議不是什麼技術壁壘,而隻是一種互相尊重的協議,好比私家花園的門口挂着“閑人免進”,尊重者繞道而行,不尊重者依然可以推門而入,比如說360。
 
其實這個文件我們有很多其他用途。這裡我們看看百度是怎麼使用robots避免蜘蛛黑洞的。
 
對于百度搜索引擎來說,蜘蛛黑洞特指網站通過極低的成本制造出大量參數過多,及内容雷同但具體參數不同的動态URL ,就像一個無限循環的“黑洞”将spider困住,Baiduspider浪費了大量資源抓取的卻是無效網頁。
比如很多網站都有篩選功能,通過篩選功能産生的網頁經常會被搜索引擎大量抓取,而這其中很大一部分檢索價值不高,如“500-1000之間價格的租房”,首先網站(包括現實中)上基本沒有相關資源,其次站内用戶和搜索引擎用戶都沒有這種檢索習慣。這種網頁被搜索引擎大量抓取,隻能是占用網站寶貴的抓取配額。那麼該如何避免這種情況呢?
我們以北京某團購網站為例,看看該網站是如何利用robots巧妙避免這種蜘蛛黑洞的:
 
對于普通的篩選結果頁,該網站選擇使用靜态鍊接,如:http://bj.XXXXX.com/category/zizhucan/weigongcun
同樣是條件篩選結果頁,當用戶選擇不同排序條件後,會生成帶有不同參數的動态鍊接,而且即使是同一種排序條件(如:都是按銷量降序排列),生成的參數也都是不同的。如:http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek

網站名稱:

網站地址:

經營範圍:

提交咨詢