每一個搜索引擎的蜘蛛(baiduspider)訪問一個站點時,它首先爬行來巡查該站點根目錄下是否存在robots.txt。如果存在,蜘蛛(baiduspider)就會按照該協(xié)議(protocol)書上的規(guī)則來確定自己的訪問范圍(fàn wéi);如果沒有robots.txt,那么蜘蛛就會沿著鏈接抓取,能否讓蜘蛛訪問,取決于Disallow和Allow,兩者可以同時使用。
Disallow用于描述(description)不希望被抓取和索引的一個URL,這個URL可以是一條完整的路徑。
常熟百度公司是按照給企業(yè)帶來潛在新客戶的訪問量計費,企業(yè)可以根據(jù)自己的需要,靈活控制推廣力度和投入,使企業(yè)的網(wǎng)絡(luò)推廣投入獲得最大的回報!這有幾種不同定義和寫法:
(1)Disallow:/AAA
任何以域名+Disallow描述(description)的網(wǎng)站內(nèi)容開頭的URL均不會被蜘蛛(baiduspider)訪問,也就是說以AAA目錄內(nèi)的文件均不會被蜘蛛(baiduspider)訪問;
(2)Disallow:/AAA/
則允許robots抓取和索引AAA/index.html,而不能抓取和索引AAA/admin.html;
(3)如果Disallow記錄為空,說明該網(wǎng)站的所有部分都允許被訪問。常熟百度公司由于關(guān)鍵詞廣告是在特定關(guān)鍵詞的檢索時,才出現(xiàn)在搜索結(jié)果頁面的顯著位置。如:企業(yè)主在百度注冊提交“BGSEM”這個關(guān)鍵詞,當(dāng)消費者或網(wǎng)民尋找“BGSEM”的信息時,企業(yè)就會優(yōu)先被找到,百度按照給實際點擊量(潛在客戶訪問數(shù))收費,每次有效點擊收費從幾毛錢到幾塊錢不等,由企業(yè)產(chǎn)品的競爭激烈程度決定的。
常熟百度推廣通過注冊提交一定數(shù)量的關(guān)鍵詞,其推廣信息就會率先出現(xiàn)在網(wǎng)民相應(yīng)的搜索結(jié)果中。簡單來說就是當(dāng)用戶利用某一關(guān)鍵詞進(jìn)行檢索,在檢索結(jié)果頁面會出現(xiàn)與該關(guān)鍵詞相關(guān)的廣告內(nèi)容。
在robots.txt文件中,至少應(yīng)有Disallow記錄,如果robots.txt為空文件,則對所有的搜索引擎robot來說,該網(wǎng)站都是開放的。
1、需要攔截子目錄中的某一個頁面之外的其他所有頁面,可以這么寫:
User-agent: *
Disallow: /AAA/
Allow: /AAA/index.html
這樣說明了所有蜘蛛(baiduspider)只可以抓取/AAA/index.html的頁面,而/AAA/文件夾的其他頁面則不能抓取,還需要注意(attention)以下錯誤的寫法:
User-agent: *
Disallow: /AAA
Allow: /AAA/index.html
2、攔截搜索引擎對所有以admin開頭的子目錄的訪問,寫法:
User-agent: *
Disallow: /admin*/
3、要攔截對所有包含“?”號的網(wǎng)址的訪問,寫法:
User-agent: *
Disallow: /*?*
4、要攔截以.asp結(jié)尾的網(wǎng)址,寫法:
User-agent: *
Disallow:/*.asp$
5、只抓取.asp?的頁面,而.asp?=1,.asp?=2等等都不抓取,寫法:
User-agent: *
Allow: /*?$
Disallow: /*?
6、屏蔽死鏈接,寫法:
User-agent: *
Disallow: /404(死頁面).html