|
|
您所在的位置:>吐血奉獻(xiàn):怎嘛寫(xiě)好robots讓權(quán)重“飛”起來(lái)(原創(chuàng))! |
|
|
吐血奉獻(xiàn):怎嘛寫(xiě)好robots讓權(quán)重“飛”起來(lái)(原創(chuàng))! |
發(fā)布人:北京網(wǎng)站建設(shè) 發(fā)布時(shí)間:2003/9/20 點(diǎn)擊:845267次
|
|
站長(zhǎng)地工作是設(shè)計(jì)精美地網(wǎng)站,為大眾展現(xiàn)網(wǎng)站豐富多彩地內(nèi)容。當(dāng)然,我們也希望精心設(shè)計(jì)地網(wǎng)站獲得理想地排名,這就要求我們?nèi)パ芯克阉饕媾琶?guī)律,最大程度地獲得機(jī)會(huì)展現(xiàn)給客戶。然而,搜索引擎種類很多,有時(shí)候,我們對(duì)某壹種搜索引擎地排名很好,卻在另外地搜索引擎上面獲得不到壹樣地排名,原因是各個(gè)搜索引擎規(guī)則不壹樣。為此,有人復(fù)制出相同地內(nèi)容以應(yīng)付不同搜索引擎地排名規(guī)則。然而,壹旦搜索引擎發(fā)現(xiàn)站內(nèi)有大量克隆地頁(yè)面,就會(huì)給以懲罰,不收錄這些重復(fù)地頁(yè)面。另壹方面,我們網(wǎng)站地內(nèi)容屬于個(gè)人私密文件,不想暴露在搜索引擎中。這時(shí),robot.txt就是為啦解決這兩個(gè)問(wèn)題。
壹、搜索引擎和其對(duì)應(yīng)地User-Agent
那么,目前有哪些搜索引擎和其對(duì)應(yīng)地User-Agent呢?下面,我列出啦壹些,以供參考。
搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
Looksmart Web Pages Slurp
貳、robots基本概念
Robots.txt文件是網(wǎng)站地壹個(gè)文件,它是給搜索引擎蜘蛛看地。搜索引擎蜘蛛爬行道我們地網(wǎng)站首先就是抓取這個(gè)文件,根據(jù)里面地內(nèi)容來(lái)決定對(duì)網(wǎng)站文件訪問(wèn)地范圍。它能夠保護(hù)我們地壹些文件不暴露在搜索引擎之下,從而有效地控制蜘蛛地爬取路徑,為我們站長(zhǎng)做好北京網(wǎng)站建設(shè)創(chuàng)造必要地條件。尤其是我們地網(wǎng)站剛剛創(chuàng)建,有些內(nèi)容還不完善,暫時(shí)還不想被搜索引擎收錄時(shí)。
robots.txt也可用在某壹目錄中。對(duì)這壹目錄下地文件進(jìn)行搜索范圍設(shè)定。
幾點(diǎn)注意:
網(wǎng)站必須要有壹個(gè)robot.txt文件。
文件名是小寫(xiě)字母。
當(dāng)需要完全屏蔽文件時(shí),需要配合meta地robots屬性。
叁、robots.txt地基本語(yǔ)法
內(nèi)容項(xiàng)地基本格式:鍵: 值對(duì)。
壹) User-Agent鍵
后面地內(nèi)容對(duì)應(yīng)地是各個(gè)具體地搜索引擎爬行器地名稱。如百度是Baiduspider,谷歌是Googlebot。
壹般我們這樣寫(xiě):
User-Agent: *
表示允許所有搜索引擎蜘蛛來(lái)爬行抓取。如果只想讓某壹個(gè)搜索引擎蜘蛛來(lái)爬行,在后面列出名字即可。如果是多個(gè),則重復(fù)寫(xiě)。來(lái)源于: 武漢民生耳鼻喉醫(yī)院 http://www.零貳柒msebh.com/
注意:User-Agent:后面要有壹個(gè)空格。
在robots.txt中,鍵后面加:號(hào),后面必有壹個(gè)空格,和值相區(qū)分開(kāi)。
貳)Disallow鍵
該鍵用來(lái)說(shuō)明不允許搜索引擎蜘蛛抓取地URL路徑。
例如:Disallow: /index.php 禁止網(wǎng)站index.php文件
Allow鍵
該鍵說(shuō)明允許搜索引擎蜘蛛爬行地URL路徑
例如:Allow: /index.php 允許網(wǎng)站地index.php
通配符*
代表任意多個(gè)字符
例如:Disallow: /*.jpg 網(wǎng)站所有地jpg文件被禁止啦。
結(jié)束符$
表示以前面字符結(jié)束地url。
例如:Disallow: /?$ 網(wǎng)站所有以?結(jié)尾地文件被禁止。
肆、robots.txt實(shí)例分析
例壹. 禁止所有搜索引擎訪問(wèn)網(wǎng)站地任何部分
User-agent: *
Disallow: /
例貳. 允許所有地搜索引擎訪問(wèn)網(wǎng)站地任何部分
User-agent: *
Disallow:
例叁. 僅禁止Baiduspider訪問(wèn)您地網(wǎng)站
User-agent: Baiduspider
Disallow: /
例肆. 僅允許Baiduspider訪問(wèn)您地網(wǎng)站
User-agent: Baiduspider
Disallow:
例伍. 禁止spider訪問(wèn)特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事項(xiàng):壹)叁個(gè)目錄要分別寫(xiě)。貳)請(qǐng)注意最后要帶斜杠。叁)帶斜杠與不帶斜杠地區(qū)別。
例陸. 允許訪問(wèn)特定目錄中地部分url
我希望a目錄下只有b.htm允許訪問(wèn),怎嘛寫(xiě)?
User-agent: *
Allow: /a/b.htm
Disallow: /a/
注:允許收錄優(yōu)先級(jí)要高于禁止收錄。
從例柒開(kāi)始說(shuō)明通配符地使用。通配符包括($ 結(jié)束符;
*任意符)
例柒. 禁止訪問(wèn)網(wǎng)站中所有地動(dòng)態(tài)頁(yè)面
User-agent: *
Disallow: /*?*
例捌. 禁止搜索引擎抓取網(wǎng)站上所有圖片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
其他很多情況呢,需要具體情況具體分析。只要你啦解啦這些語(yǔ)法規(guī)則以及通配符地使用,相信很多情況是可以解決地。
伍、meta robots標(biāo)簽
meta是網(wǎng)頁(yè)html文件地head標(biāo)簽里面地標(biāo)簽內(nèi)容。它規(guī)定啦此html文件對(duì)與搜索引擎地抓取規(guī)則。與robot.txt 不同,它只針對(duì)寫(xiě)在此html地文件。
寫(xiě)法:
meta name=robots content= /。
里面地內(nèi)容列出如下
noindex - 阻止頁(yè)面被列入索引。
nofollow - 阻止對(duì)于頁(yè)面中任何超級(jí)鏈接進(jìn)行索引。
noarchive - 不保存該頁(yè)面地網(wǎng)頁(yè)快照。
nosnippet - 不在搜索結(jié)果中顯示該頁(yè)面地摘要信息,同時(shí)不保存該頁(yè)面地網(wǎng)頁(yè)快照。
noodp - 在搜索結(jié)果中不使用Open Directory Project中地描述信息作為其摘要信息。
陸、robots地測(cè)試
在谷歌站長(zhǎng)工具中,添加網(wǎng)站后使用左側(cè)地抓取工具地權(quán)限,就可以對(duì)網(wǎng)站地robots進(jìn)行測(cè)試?yán),詳?xì)見(jiàn)圖。
robots.txt和mtea robots地內(nèi)容就介紹到這里,相信大家對(duì)robot已經(jīng)有啦比較詳細(xì)地啦解。使用好robots對(duì)于我們網(wǎng)站地北京網(wǎng)站建設(shè)有著重要作用,做地好,可以有效地屏蔽那些我們不想讓搜索引擎抓取地頁(yè)面,也就是對(duì)用戶體驗(yàn)不高地頁(yè)面,從而將有利于重要詞語(yǔ)排名地內(nèi)頁(yè)充分展示個(gè)客戶,獲得搜索引擎對(duì)站內(nèi)頁(yè)面地權(quán)重,從而有利于我們將重要詞語(yǔ)排名做地更好。北京歡迎你科技有限公司原創(chuàng)文章,關(guān)鍵詞:北京網(wǎng)站建設(shè) 北京建網(wǎng)站 北京網(wǎng)站制作 轉(zhuǎn)載請(qǐng)注明出處:www.shanghai2018.cn
謝謝! |
|
返回 |
|
|
|
|
|
|