網站日志文件的分析方法
無論是用戶還是搜索引擎訪問網站,我們的日志文件中都會留有記錄。這對于我們對網站的分析有非常重要的意義。很多人表示網站日志看不懂,在這里泰州網站建設公司宇易網絡(luo)跟(gen)大家分(fen)享(xiang)一(yi)下網站日志文(wen)件(jian)的分(fen)析(xi)方法。希(xi)望(wang)對大家能夠有用。
對于(yu)網站(zhan)的分(fen)析,我們最需(xu)要了解(jie)的是搜(sou)(sou)索引擎(qing)蜘蛛對網站(zhan)的爬行。下(xia)面(mian)總結一下(xia)常見(jian)的搜(sou)(sou)索引擎(qing)蜘蛛的Agent。百度->baiduspider、Google ->Googlebot、360搜(sou)(sou)索 ->360spider、Bing ->bingbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider。在日志中我們搜(sou)(sou)索以(yi)下(xia)的關鍵(jian)詞,我們可以(yi)了解(jie)到搜(sou)(sou)索引擎(qing)蜘蛛對網站(zhan)的爬取(qu)情況。
同時我(wo)們(men)要對狀態碼要有一個基本的了(le)解。
1) 200:蜘(zhi)蛛(zhu)爬取正常
2) 301:訪問的(de)頁面永久跳轉
3) 302:訪問(wen)的頁面臨時跳轉
4) 304:蜘蛛(zhu)自上(shang)次(ci)爬行以來,沒有發生任何變化
5) 403:頁面無訪問權限(xian)
6) 404:訪問的頁(ye)面不存(cun)在
7) 500:網(wang)站的程序出錯
我們(men)對以下(xia)的(de)一(yi)行日(ri)志文件(jian)進行分析(該日(ri)志文件(jian)來自于(yu)Nginx日(ri)志,Apache和IIS的(de)日(ri)志文件(jian)大同小異):
202.102.85.18 - - [09/May/2014:09:13:19 +0800] "GET / HTTP/1.0" 200 17085 "//www.baidu.com/" "Baiduspider+(+//www.baidu.com/search/spider.htm)" "218.30.118.100"
前面(mian)是(shi)(shi)蜘(zhi)蛛(zhu)的IP地址;后面(mian)中括號中代表蜘(zhi)蛛(zhu)爬行的時間;后面(mian)是(shi)(shi)要求的方法(fa),一般為GET,也有可(ke)能是(shi)(shi)POST,再后面(mian)表示http協議,版本(ben)為1.0;后面(mian)是(shi)(shi)狀態碼(ma)200,最(zui)后是(shi)(shi)蜘(zhi)蛛(zhu)的名稱。
對日志文件的(de)(de)分(fen)析,我們(men)(men)可(ke)以了解到蜘蛛對網站(zhan)的(de)(de)爬取(qu),在什么時間爬行(xing)過哪些頁(ye)面。對于我們(men)(men)后(hou)面對網站(zhan)的(de)(de)分(fen)析有很重要的(de)(de)作用。