網絡技術是從1990年代中期發展起來的新技術,它把互聯網上分散的資源融為有機整體,實現資源的全面共享和有機協作,使人們能夠透明地使用資源的整體能力并按需獲取信息。資源包括高性能計算機、存儲資源、數據資源、信息資源、知識資源、專家資源、大型數據庫、網絡、傳感器等。 當前的互聯網只限于信息共享,網絡則被認為是互聯網發展的第三階段。 內容摘要:你完全不必耐心地看完下面的所有內容,因為結論無非以下2點:1 用 cronolog 干凈,安全地輪循apache“日”志 2 用 sort -m 合并排序多個日志 根據個人的使用經歷: 1 先介紹apache日志的合并方法; 2 然后根據由此引出的問題說明日志輪循的必要性和解決方法,介紹如何通過cronolog對apache日志進行輪循; 中間有很多在設計日志合并過程中一些相關工具的使用技巧和一些嘗試的失敗經歷…… 我相信解決以上問題的路徑不止這一條途徑,以下方案肯定不是最簡便或者說成本最低的,希望能和大家有更多的交流。 {0} 多服務器日志合并統計的必要性: 越來越多大型的WEB服務使用DNS輪循來實現負載均衡:使用多個同樣角色的服務器做前臺的WEB服務,這大大方便了服務的分布規劃和擴展性,但多個服務器的分布使得日志的分析統計也變得有些麻煩。如果使用webalizer等日志分析工具對每臺機器分別做日志統計: 1 會對數據的匯總帶來很多麻煩,比如:統計的總訪問量需要將SERVER1 SERVER2...上指定月份的數字相加。 2 會大大影響統計結果中唯一訪客數unique visits,唯一站點數unique sites的等指標的統計,因為這幾個指標并非幾臺機器的代數相加。 統一日志統計所帶來的好處是顯而易見的,但如何把所有機器的統計合并到一個統計結果里呢? 首先也許會想:多個服務器能不能將日志記錄到同一個遠程文件里呢?我們不考慮使用遠程文件系統記錄日志的問題,因為帶來的麻煩遠比你獲得的方便多的多…… 因此,要統計的多個服務器的日志還是:分別記錄=>并通過一定方式定期同步到后臺=>合并=>后用日志分析工具來進行分析。 首先,要說明為什么要合并日志:因為webalizer沒有將同一天的多個日志合并的功能 先后運行 webalizer log1 webalizer log2 webalizer log3 這樣最后的結果是:只有log3的結果。 能不能將log1< 因為一個日志的分析工具不是將日志一次全部讀取后進行分析,而且流式的讀取日志并按一定時間間隔,保存階段性的統計結果。因此時間跨度過大(比如2條日志間隔超過5分鐘),一些日志統計工具的算法就會將前面的結果“忘掉”。因此, log1< {1} 日志合并問題 多個服務的合并統計就是要把日志按時間排序后合并成一個文件 典型的多個日志文件的時間字段是這樣的: log1 log2 log3 00:15:00 00:14:00 00:11:00 00:16:00 00:15:00 00:12:00 00:17:00 00:18:00 00:13:00 00:18:00 00:19:00 00:14:00 14:18:00 11:19:00 10:14:00 15:18:00 17:19:00 11:14:00 23:18:00 23:19:00 23:14:00 日志合并必須是按時間將多個日志的交叉合并。合并后的日志應該是: 00:15:00 來自log1 00:15:00 來自log2 00:16:00 來自log1 00:17:00 來自log3 00:18:00 來自log2 00:19:00 來自log1 .... 如何合并多個日志文件? 下面以標準的clf格式日志(apache)為例: apche的日志格式是這樣的: %h %l %u %t "%r" %>s %b 具體的例子: 111.222.111.222 - - [03/Apr/2002:10:30:17 +0800] "GET /index.html HTTP/1.1" 200 419 最簡單的想法是將日志一一讀出來,然后按日志中的時間字段排序 cat log1 log2 log3 |sort -k 4 -t " " 注釋: -t " ": 日志字段分割符號是空格 -k 4: 按第4個字段排序,也就是: [03/Apr/2002:10:30:17 +0800] 這個字段 -o log_all: 輸出到log_all這個文件中 但這樣的效率比較低,要知道。如果一個服務已經需要使用負載均衡,其服務的單機日志條數往往都超過了千萬級,大小在幾百M,這樣要同時對多個幾百M的日志進行排序,機器的負載可想而之…… 其實有一個優化的途徑,要知道:即使單個日志本身已經是一個“已經按照時間排好序“的文件了,而sort對于這種文件的排序合并提供了一個優化合并算法:使用 -m merge合并選項, 因此:合并這樣格式的3個日志文件log1 log2 log3并輸出到log_all中比較好方法是: sort -m -t " " -k 4 -o log_all log1 log2 log3 注釋: -m: 使用 merge優化算法 注意:合并后的日志輸出最好壓縮以后再發給webalizer處理 有的系統能處理2G的文件,有的不能。有的程序能處理大于2G的文件,有的不能。盡量避免大于2G的文件,除非確認所有參與處理的程序和操作系統都能處理這樣的文件。所以輸出后的文件如果大于2G,最好將日志gzip后再發給webalizer處理:大于2G的文件分析過程中文件系統出錯的可能性比較大,并且gzip后也能大大降低分析期間的I/O操作。 日志的按時間排序合并就是這樣實現的。 網絡的神奇作用吸引著越來越多的用戶加入其中,正因如此,網絡的承受能力也面臨著越來越嚴峻的考驗―從硬件上、軟件上、所用標準上......,各項技術都需要適時應勢,對應發展,這正是網絡迅速走向進步的催化劑。 |
溫馨提示:喜歡本站的話,請收藏一下本站!