百度蜘蛛抓取量,顧名思義就是指百度蜘蛛每天抓取大家網(wǎng)站的網(wǎng)頁數(shù)量。據(jù)所知,百度蜘蛛抓取的目標(biāo)有兩種:一是這個站點產(chǎn)生的新網(wǎng)頁,另一種是百度以前抓取過但是需要更新的網(wǎng)頁。
如果不是很好理解的話,這里為大家舉例說明下:
比如一個站點已經(jīng)被百度收錄了2w,那么百度會給出一個時間段,比如15天,然后平均一下,每天到這個站點上面抓2W/15的這樣一個數(shù)字,當(dāng)然具體的數(shù)字肯定不是這個,這個就是百度內(nèi)部的數(shù)據(jù)了。
下面具體為大家介紹下影響網(wǎng)站百度蜘蛛抓取量的因素。
對于中小型站點,由于在安全技意識上比較欠缺, 技術(shù)上也比較薄弱,因此網(wǎng)站被黑被篡改的現(xiàn)象非常常見。一般被黑有常見幾種情況,一種是網(wǎng)站域名被黑,一種是標(biāo)題被篡改,還有一種是在頁面里面加了很多的黑鏈。 對于一般網(wǎng)站來說,域名被黑被劫持,就是域名被進行設(shè)置了301跳轉(zhuǎn),跳轉(zhuǎn)到指定的垃圾網(wǎng)站。而這種跳轉(zhuǎn)被百度發(fā)現(xiàn)了的話,那么對于你站點的抓取就會降低,甚至于被懲罰降權(quán)。
另外網(wǎng)站內(nèi)容的質(zhì)量也是很重要的,如果蜘蛛抓取了我們網(wǎng)站10萬條內(nèi)容,最后只有100條或者更少的內(nèi)容被建庫了,那么百度蜘蛛對于網(wǎng)站的抓取量還會下降。因為百度會認(rèn)為我們的站點質(zhì)量很差,沒必要去抓取更多。 所以特別提醒:大家在建站初期的時候就需要注意內(nèi)容質(zhì)量,不要采集內(nèi)容,這對于網(wǎng)站的發(fā)展來說存在潛在的隱患。
①網(wǎng)頁的大小會影響抓取,百度建議網(wǎng)頁的大小在1M以內(nèi),當(dāng)然類似大的門戶網(wǎng)站,如新浪另說。
②代碼質(zhì)量、機器的性能及帶寬。這些都會影響到抓取的質(zhì)量。代碼質(zhì)量不用多說,蜘蛛本身也屬于按照程序執(zhí)行,你的代碼質(zhì)量很差,很難讀懂,蜘蛛自然不會浪費時間去解讀。 機器性能和帶寬同樣如此,服務(wù)器配置太差,帶寬不夠會導(dǎo)致蜘蛛抓取網(wǎng)站出現(xiàn)困難,會嚴(yán)重影響蜘蛛抓取的積極性。
百度抓取都是按照ip進行去抓取的,比如百度規(guī)定在一個ip上一天可以抓取了2000w個頁面,而在這個站點上有50W個站點,那么平均下來抓取每個站點的數(shù)量會分的很少。同時還需要注意看一看同ip上面有沒有大站,如果有大站的話,本來就被分得很少的抓取量又會被大站分走不少。