時(shí)間:2012-07-11網(wǎng)站改版后 如何利用robots.txt正確屏蔽一些頁面的收錄
本篇分享的是廈門中恒公司SEO團(tuán)隊(duì)里的一位站長的親身經(jīng)歷,下面是他的自述:
在之前自己廈門SEO博客經(jīng)過了多次改版,想要利用robots.txt來屏蔽了一些頁面的收錄,來防止重復(fù)頁面的產(chǎn)生,本來wordpress就自帶了很多頁面,就會導(dǎo)致非常多的重復(fù)頁面,就算你只有一片文章,wordpress也會給你生成許多頁面,但是內(nèi)容都幾乎相同,只是聚合的因子不同,這樣就對我們做SEO造成了不小的影響,新站上線,就很有可能導(dǎo)致被搜索引擎K掉,或者權(quán)重難以提升,今天廈門SEO就給大家說說如何利用robots來屏蔽掉一些頁面,控制搜索引擎的爬取。
今日從新列舉一下常見的robots.txt實(shí)際使役中的誤區(qū):
誤區(qū)1:Allow包含的范圍超過Disallow,而且位置在Disallow面前。
譬如有眾多人這么寫:
User-agent: *
Allow: /
Disallow: /mulu/
想讓所有蜘蛛抓取本站除/mulu/下邊的url以外的所有頁面,禁阻抓取/mulu/下邊的所有url。
搜引得擎蜘蛛執(zhí)行的規(guī)則是從上到下,這么會導(dǎo)致第二句命令無效。也就是說禁阻抓取/mulu/目次這條規(guī)則是無效的。不錯(cuò)的是Disallow應(yīng)當(dāng)在Allow之上,這么才會生效。
誤區(qū)2:.Disallow命令和Allow命令然后沒有以斜杠”/”開頭。
這個(gè)也很容易被偏廢,譬如有人這么寫Disallow: 123.html ,這種是沒管用的。斜杠”/”表達(dá)的是文件對于根目次的位置,假如不帶的話,灑脫無法判斷url是哪個(gè),所以是不對的。
正確的應(yīng)當(dāng)是Disallow: /123.html,這么能力屏蔽/123.html這個(gè)文件,這條規(guī)則能力生效。
誤區(qū)3.:屏蔽的目次后沒有帶斜杠”/”。
也就是譬如想屏蔽抓取/mulu/這個(gè)目次,有點(diǎn)人這么寫Disallow: /mulu。那么這么是否正確呢?
首先這么寫(Disallow: /mulu)委實(shí)可以屏蔽/mulu/下邊的所有url,然而同時(shí)也屏蔽了類似/mulu123.html這種開頭為/mulu的所有頁面,效果等同于Disallow: /mulu*。
正確的做法是,假如只想屏蔽目次,那么務(wù)必在結(jié)尾帶上斜杠”/”。
看到這里,不知道大家對robots.txt有沒有一個(gè)深刻一些的認(rèn)識呢?之前自己廈門SEO博客改版,因?yàn)樾薷膔obots.txt導(dǎo)致了搜索引擎不收錄,其實(shí)最根本的原因還是因?yàn)轭l繁修改robots.txt造成的,所以robots.txt最好建站初期就設(shè)定好,然后盡量少修改,不然會造成搜索引擎的不信任。
在之前自己廈門SEO博客經(jīng)過了多次改版,想要利用robots.txt來屏蔽了一些頁面的收錄,來防止重復(fù)頁面的產(chǎn)生,本來wordpress就自帶了很多頁面,就會導(dǎo)致非常多的重復(fù)頁面,就算你只有一片文章,wordpress也會給你生成許多頁面,但是內(nèi)容都幾乎相同,只是聚合的因子不同,這樣就對我們做SEO造成了不小的影響,新站上線,就很有可能導(dǎo)致被搜索引擎K掉,或者權(quán)重難以提升,今天廈門SEO就給大家說說如何利用robots來屏蔽掉一些頁面,控制搜索引擎的爬取。
今日從新列舉一下常見的robots.txt實(shí)際使役中的誤區(qū):
誤區(qū)1:Allow包含的范圍超過Disallow,而且位置在Disallow面前。
譬如有眾多人這么寫:
User-agent: *
Allow: /
Disallow: /mulu/
想讓所有蜘蛛抓取本站除/mulu/下邊的url以外的所有頁面,禁阻抓取/mulu/下邊的所有url。
搜引得擎蜘蛛執(zhí)行的規(guī)則是從上到下,這么會導(dǎo)致第二句命令無效。也就是說禁阻抓取/mulu/目次這條規(guī)則是無效的。不錯(cuò)的是Disallow應(yīng)當(dāng)在Allow之上,這么才會生效。
誤區(qū)2:.Disallow命令和Allow命令然后沒有以斜杠”/”開頭。
這個(gè)也很容易被偏廢,譬如有人這么寫Disallow: 123.html ,這種是沒管用的。斜杠”/”表達(dá)的是文件對于根目次的位置,假如不帶的話,灑脫無法判斷url是哪個(gè),所以是不對的。
正確的應(yīng)當(dāng)是Disallow: /123.html,這么能力屏蔽/123.html這個(gè)文件,這條規(guī)則能力生效。
誤區(qū)3.:屏蔽的目次后沒有帶斜杠”/”。
也就是譬如想屏蔽抓取/mulu/這個(gè)目次,有點(diǎn)人這么寫Disallow: /mulu。那么這么是否正確呢?
首先這么寫(Disallow: /mulu)委實(shí)可以屏蔽/mulu/下邊的所有url,然而同時(shí)也屏蔽了類似/mulu123.html這種開頭為/mulu的所有頁面,效果等同于Disallow: /mulu*。
正確的做法是,假如只想屏蔽目次,那么務(wù)必在結(jié)尾帶上斜杠”/”。
看到這里,不知道大家對robots.txt有沒有一個(gè)深刻一些的認(rèn)識呢?之前自己廈門SEO博客改版,因?yàn)樾薷膔obots.txt導(dǎo)致了搜索引擎不收錄,其實(shí)最根本的原因還是因?yàn)轭l繁修改robots.txt造成的,所以robots.txt最好建站初期就設(shè)定好,然后盡量少修改,不然會造成搜索引擎的不信任。
本篇文章“網(wǎng)站改版后 如何利用robots.txt正確屏蔽一些頁面的收錄”由中恒天下編輯整理。
如需轉(zhuǎn)載請注明來源:http://m.jiudecq.cn/article/853.html
如需轉(zhuǎn)載請注明來源:http://m.jiudecq.cn/article/853.html