robots.txt的正確寫法是什么?
網(wang)(wang)頁(ye)要被搜索引(yin)擎(qing)抓(zhua)取,首先要被搜索引(yin)擎(qing)收錄(lu),而搜索引(yin)擎(qing)收錄(lu)網(wang)(wang)頁(ye)參(can)考的(de)就是robots.txt文(wen)件(jian),robots.txt文(wen)件(jian)對于網(wang)(wang)站(zhan)非(fei)常(chang)重要,robots.txt文(wen)件(jian)用(yong)于指定(ding)spider在(zai)(zai)您(nin)網(wang)(wang)站(zhan)上的(de)抓(zhua)取范圍。您(nin)可以在(zai)(zai)您(nin)的(de)網(wang)(wang)站(zhan)中(zhong)創建一robots.txt,在(zai)(zai)文(wen)件(jian)中(zhong)聲明該網(wang)(wang)站(zhan)中(zhong)不(bu)想被搜索引(yin)擎(qing)收錄(lu)的(de)部(bu)分或者指定(ding)搜索引(yin)擎(qing)只收錄(lu)特定(ding)的(de)部(bu)分。
Disallow– 不允許蜘蛛抓(zhua)取某些文件或目錄(lu)。
下面的代碼將阻止(zhi)蜘蛛(zhu)抓取網站(zhan)所有(you)的文(wen)件:
User-agent: *
Disallow: /
Allow– 允許(xu)蜘蛛抓(zhua)取某些(xie)文件(jian)。可(ke)以把Allow和(he)Disallow配合使(shi)用,從而使(shi)蜘蛛在某個(ge)目錄下只抓(zhua)取一部(bu)分(fen)內容。
下面(mian)代碼將不允許蜘蛛(zhu)抓取ab目錄下的(de)文件(jian),而只抓取cd下的(de)文件(jian):
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符(fu) – 匹配URL結尾(wei)的(de)字符(fu)。
下面的代碼將允許蜘蛛訪問(wen)以.htm為后綴的URL路徑:
User-agent: *
Allow: .htm$
*通配符(fu) – 告訴蜘蛛匹配任意一段字符(fu)。
如下面一段代碼將禁止蜘(zhi)蛛抓取所有htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置 – 告訴蜘蛛你的網站地(di)圖在哪里,格式(shi)為:
Sitemap: sitemap_location