多伺服器的日誌合併統計

最簡單的想法是將日誌一一讀出來,然後按日誌中的時間欄位排序

cat log1 log2 log3 |sort -k 4 -t ” ”
注釋:
-t ” “: 日誌欄位分割符號是空格
-k 4: 按第4個欄位排序,也就是:
[03/Apr/2002:10:30:17 +0800] 這個欄位
-o log_all: 輸出到log_all這個檔中
但這樣的效率比較低,要知道。如果一個服務已經需要使用負載均衡,其服務的單機日誌條數往往都超過了千萬級,大小在幾百M,這樣要同時對多個幾百M的日誌進行排序,機器的負載可想而之……
銋磞酗@個優化的途徑,要知道:即使單個日誌本身已經是一個“已經按照時間排好序“的檔了,而sort對於這種檔的排序合併提供了一個優化合併演算法:使用 -m merge合併選項,
因此:合併這樣格式的3個日誌檔log1 log2 log3並輸出到log_all中比較好方法是:

sort -m -t ” ” -k 4 -o log_all log1 log2 log3
注釋:
-m: 使用 merge優化演算法
注意:合併後的日誌輸出最好壓縮以後再發給webalizer處理
有的系統能處理2G的檔,有的不能。有的程式能處理大於2G的檔,有的不能。儘量避免大於2G的檔,除非確認所有參與處理的程式和作業系統都能處理這樣的檔。所以輸出後的檔如果大於2G,最好將日誌gzip後再發給webalizer處理:大於2G的檔分析過程中檔系統出錯的可能性比較大,並且 gzip後也能大大降低分析期間的I/O操作。
日誌的按時間排序合併就是這樣實現的。
{2} 日誌的輪循機制:
讓我們關心一下資料源問題:webalizer其實是一個按月統計的工具,支持增量統計:因此對於大型的服務,我可以按天將apache的日誌合併後送給webalizer統計。WEB日誌是如何按天(比如每天子夜00:00:00)截斷呢?
如果你每天使用crontab:每天0點準時將日誌備份成access_log_yesterday

mv /path/to/apache/log/access_log
/path/to/apache/log/access_log_yesterday
的話:你還需要:馬上運行一下:apache restart 否則:apache會因為的日誌檔控制碼丟失不知道將日誌記錄到哪里去了。這樣歸檔每天子夜重啟apache服務會受到影響。
比較簡便不影響服務的方法是:先複製,後清空

cp /path/to/apache/log/access_log /path/to/apache/log/access_log_yesterday
echo >/path/to/apache/log/access_log
嚴肅的分析員會這樣做發現一個問題:
但cp不可能嚴格保證嚴格的0點截斷。加入複製過程用了6秒,截斷的access_log_yesterday日誌中會出現複製過程到00:00: 06期間的日誌。對於單個日誌統計這些每天多出來幾百行日誌是沒有問題的。但對於多個日誌在跨月的1天會有一個合併的排序問題:

[31/Mar/2002:59:59:59 +0800]
[31/Mar/2002:23:59:59 +0800]
[01/Apr/2002:00:00:00 +0800]
[01/Apr/2002:00:00:00 +0800]

要知道[01/Apr/2002:00:00:00 這個欄位是不可以進行“跨天排序”的。因為日期中使用了dd/mm/yyyy,月份還是英文名,如果按照字母排序,很有可能是這樣的結果:排序導致了日誌的錯誤

[01/Apr/2002:00:00:00 +0800]
[01/Apr/2002:00:00:00 +0800]
[01/Apr/2002:00:00:00 +0800]
[01/Apr/2002:00:00:00 +0800]
[01/Apr/2002:00:00:00 +0800]
[01/Apr/2002:00:00:00 +0800]
[01/Apr/2002:00:00:00 +0800]
[31/Mar/2002:59:59:59 +0800]
[31/Mar/2002:59:59:59 +0800]
[31/Mar/2002:23:59:59 +0800]
[31/Mar/2002:59:59:59 +0800]
[31/Mar/2002:23:59:59 +0800]
這些跨天過程中的非正常資料對於webalizer等分析工具來說簡直就好像是吃了一個臭蟲一樣,運行的結果是:它可能會把前一個月所有的資料都丟失!因此這樣的資料會有很多風險出現在處理上月最後一天的資料的過程中。
暋D的解決有幾個思路:
1 事後處理:
所以一個事後的處理的方法是:用grep命令在每月第1天將日誌跨月的日誌去掉,比如:

grep -v “01/Apr” access_log_04_01 > access_log_new
修改SORT後的日誌:所有跨天的資料去掉。也許對日誌的事後處理是一個途徑,雖然sort命令中有對日期排序的特殊選項 -M(注意是:大寫M),可以讓指定欄位按照英文月份排序而非字母順序,但對於apache日誌來說,用SORT命令切分出月份欄位很麻煩。(我嘗試過用 “/”做分割符,並且使用“月份” “年:時間”這兩個欄位排序)。雖然用一些PERL的腳本肯定可以實現,但最終我還是放棄了。這不符合系統管理員的設計原則:通用性。並且你需要一直問自己:有沒有更簡單的方法呢?還有就是將日誌格式改成用TIMESTAMP(象SQUID的日誌就沒有這個問題,它的日誌本身就是使用 TIMESTAMP做時間時間戳的),但我無法保證所有的日誌工具都能識別你在日期這個欄位使用了特別的格式。
2 優化數據源:
最好的辦法還是優化資料源。將資料源保證按天輪循,同一天的日誌中的資料都在同一天內。這樣以後你無論使用什麼工具(商業的,免費的)來分析日誌,都不會因為日誌複雜的預處理機制受到影響。
首先可能會想到的是控制截取日誌的時間:比如嚴格從0點開始截取日誌,但在子夜前1分鐘還是後一分鐘開始截取是沒有區別的,你仍然無法控制一個日誌中有跨2天記錄的問題,而且你也無法預測日誌歸檔過程使用的時間。
因此必須要好好考慮一下使用日誌輪循工具的問題,這些日誌輪循工具要符合:
1 不中斷WEB服務:不能停apache=>移動日誌=>重啟apache
2 保證同一天日誌能夠按天輪循:每天一個日誌00:00:00-23:59:59
3 不受apache重啟的影響:如果apache每次重啟都會生成一個新的日誌是不符合要求的
4 安裝配置簡單
首先考慮了apache/bin目錄下自帶的一個輪循工具:rotatelogs 這個工具基本是用來按時間或按大小控制日誌的,無法控制何時截斷和如何按天歸檔。
然後考慮logrotate後臺服務:logrotate是一個專門對各種系統日誌(syslogd,mail)進行輪循的後臺服務,比如SYSTEM LOG,但其配置比較複雜,放棄,實際上它也是對相應服務進程發出一個-HUP重啟命令來實現日誌的截斷歸檔的。
在apache的FAQ中,推薦了經過近2年發展已經比較成熟的一個工具cronolog:安裝很簡單:

configure=>make=> make install
他的一個配置的例子會讓你瞭解它有多麼適合日誌按天輪循:對httpd.conf做一個很小的修改就能實現:

TransferLog “|/usr/sbin/cronolog /web/logs/%Y/%m/%d/access.log”
ErrorLog “|/usr/sbin/cronolog /web/logs/%Y/%m/%d/errors.log”
然後:日誌將寫入

/web/logs/2002/12/31/access.log
/web/logs/2002/12/31/errors.log
午夜過後:日誌將寫入

/web/logs/2003/01/01/access.log
/web/logs/2003/01/01/errors.log
而2003 2003/01 和 2003/01/01 如果不存在的話,將自動創建
所以,只要你不在0點調整系統時間之類的話,日誌應該是完全按天存放的(00:00:00-23:59:59),後面日誌分析中:[31/Mar/2002:15:44:59這個欄位就和日期無關了,只和時間有關。
測試:考慮到系統硬碟容量,決定按星期輪循日誌
apache配置中加入:

#%w weekday
TransferLog “|/usr/sbin/cronolog /path/to/apache/logs/%w/access_log”
重啟apache後,除了原來的CustomLog /path/to/apche/logs/access_log繼續增長外,系統log目錄下新建立了 3/目錄(測試是在周3),過了一會兒,我忽然發現2個日誌的增長速度居然不一樣!
分別tail了2個日誌才發現:
痝]置CustomLog使用的是combined格式,就是包含(擴展資訊的),而TransferLog使用的是缺省日誌格式,看了apache 的手冊才知道,TransferLog是用配置檔中離它自己最近的一個格式作為日誌格式的。我的httpd.conf裏寫的是:

LogFormat ….. combined
LogFormat … common

CustomLog … combined
TransferLog …
所以TrasferLog日誌用的是缺省格式,手冊裏說要讓TRANSFER日誌使用指定的格式需要:

LogFormat “%h %l %u %t “%r” %>s %b “%{Referer}i” “%{User-Agent}i””
TransferLog “|/usr/local/sbin/cronolog /path/to/apache/logs/%w/access_log”
重啟,OK,日誌格式一樣了。
這樣的設置結果其實是同時在logs目錄下分別記錄2個日誌access_log和%w/access_log,能不能只記錄%w/下的日誌那?
查apache手冊,更簡單的方法:直接讓CustomLog輸出到cronolog歸檔日誌,並且還能指定格式。

CustomLog “|/usr/local/sbin/cronolog
/path/to/apache/logs/%w/access_log” combined
最後是一個日誌同步的問題。
任務:每天淩晨找到前1天的日誌,另存一個檔準備發送到伺服器上。
比如我要保留前1周的日誌:每天複製前1天的日誌到指定目錄,等待日誌伺服器來抓取:

/bin/cp /path/to/logs/`date -v-1d +%w`/access_log
/path/to/sync/logs/access_yesterday
在FREEBSD上使用以下命令

date -v-1d +%w
注釋:
-v-1d: 前1天,而在LINUX上這個選項應該是date -d yesterday
+%w: weekday,由於使用的都是標準時間函數庫,所有工具中的WEEKDAY定義都是一樣的 0-6 => 周日-週六
注意:寫到CRONTAB裏的時候”%”前面需要加一個””轉義:每天0點5分進行一次日誌歸檔

5 0 * * * /bin/cp /path/to/logs/`date -v-1d +\%w`/access_log
/path/to/for_sync/logs/access_yesterday
首次開始cronolog日誌統計是周3,一周以後日誌又將輪循回3/access_log
但這次日誌是追加到3/access_log還是重新創建一個檔呢?>>access_log or >access_log?
痟晡熊痕G是日誌將被追加:

[01/Apr/2002:23:59:59 +0800]
[01/Apr/2002:23:59:59 +0800]
[08/Apr/2002:00:00:00 +0800]
[08/Apr/2002:00:00:00 +0800]
肯定是不希望每次日誌還帶著上周的資料的並重複統計一次的(雖然對結果沒影響),而且這樣%w/下的日誌不是也越來越多了嗎?
悃M方法1 把每天的cp改成mv
悃M方法2 每天複製完成後:刪除6天以前的access_log日誌

find /path/to/apache/logs -name access_log -mtime +6 -exec rm -f {};
多保留幾天的日誌還是有必要的:萬一日誌分析伺服器壞了一天呢?
總結:
1 用 cronolog 乾淨,安全地輪循日誌
2 用 sort -m 排序合併多個日誌
悁珚禤G
日誌分析統計工具:
http://directory.google.com/Top/Computers/Software/
Internet/Site_Management/Log_Analysis/
Apche的日誌設置:
http://httpd.apache.org/docs/mod/mod_log_config.html
apache的日誌輪循:
http://httpd.apache.org/docs/misc/FAQ.html#rotate
cronolog:http://www.cronolog.org