用Python和Awk进行日志分析

=Start=

缘由：

之前就做过网站访问日志的分析，分别用的是awk和Python，但都比较简单，只是简单选取了IP的维度，还没有区分访问的日期，这样的话如果某个IP在某一天中的访问次数很多，但在其它这一月/年终的其他时候访问次数不多，那在单纯只考虑IP访问次数的情况下是很难确定这样的IP的（而这样的IP又很有可能是爬虫或是攻击者的IP），因此需要加上时间维度，但如果时间维度做的太细，消耗时间太长；如果做的太粗又不容易发现问题；所以，这种情况下需要根据具体情况 & 实际需要来选取粒度。因为我这主要是各人分析用，所以可以使用简单的“以天为单位”来分析，用到了Python和awk进行日志处理，快速方便：

默认的Nginx记录日志的格式为（默认情况下以“空格”为分隔符，但在真实情况下是不利于日志分析的，但这里为了方便起见还是以默认的为示例进行说明）：

#log format
log_format access '$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" $http_x_forwarded_for';

从日志中取一些样本进行查看：

# head -3 access.log
120.204.200.21 - - [25/Apr/2015:00:01:04 +0800] "GET /blog/ HTTP/1.1" 200 9082 "-" "DNSPod-Monitor/2.0" -
50.116.30.23 - - [25/Apr/2015:00:01:05 +0800] "GET /blog/feed HTTP/1.1" 304 0 "-" "Superfeedr bot/2.0 http://superfeedr.com - Make your feeds realtime: get in touch - feed-id:128926078" -
209.15.21.92 - - [25/Apr/2015:00:01:26 +0800] "HEAD /blog/ HTTP/1.1" 200 0 "-" "-" -

先用awk取几列看看：

$ cat access.log | awk '$3="-" {print substr($4, 2, 11),$1}'
$ cat access.log | awk '$3=="-" {print substr($4, 2, 11),$1}'

用awk对日志进行处理（根据“日期+IP”进行去重）：

$ awk '{dict[substr($4, 2, 11)"\t"$1]++}; END{for(item in dict) print item"\t"dict[item]}' access.log

对大公司来说，日志是会按时间段进行切割的（这个几乎是必然的，否则访问日志过大的话容易引起各种问题/隐患），并用处理大数据的方法对日志进行处理（其实这几句话都是废话，我的真实目的是想引出HDFS和简单的Streaming）……

正文：

废话不多说，通过awk对日志进行处理了之后，记录的文件内容格式为：

date IP count

然后通过对处理后的文件再进行分析从而得到我们想要的各种结果：

#某一天的IP访问总量（PV）
#某一天的独立IP访问总量（UV）
#总IP访问量的排序（按IP访问量取top）
#某一指定IP在每/某一天的访问量（对IP进行去重计数）
…待添加…

这里需要用到二维数组的知识（如果需要增加更多的分析维度，那就需要多维数组了），但Python里面的二维数组用的少（貌似主要是做科研的用 NumPy 库和一些其他的专用库），去stackoverflow上搜了一堆感觉那种二维数组不是我想要的：

搜索关键字：

python 二维数组
python two dimensional array
python create dynamic two dimensional array

参考链接：

之前写另外一个东西的时候用了嵌套的dict代替二维数组（list），挺好用的，这次就依葫芦画瓢，整了个类似的：

#!/usr/bin/env python
# coding=utf-8
import sys, re

date_ip_x = {}
pv_of_date = {}
uv_of_date = {}
for line in sys.stdin:
    line = line.strip()
    res = re.split(" ", line)
    ip = res[0].strip()
    date = res[3].strip()[1:12]

    if date in date_ip_x:
        if ip in date_ip_x[date]:
            date_ip_x[date][ip] += 1
        else:
            date_ip_x[date][ip] = 1
    else:
        date_ip_x[date] = {ip:1}

for date in date_ip_x:
    pv_of_date[date] = len(date_ip_x[date])
#pv_of_date = {date:len(date_ip_x[date]) for date in date_ip_x}

for date in date_ip_x:
    uv_of_date[date] = 0
    for ip in date_ip_x[date]:
        uv_of_date[date] += date_ip_x[date][ip]

print date_ip_x
print pv_of_date
print uv_of_date

with open("date_ip_count.txt", 'w') as f:
    for date in date_ip_x:
        f.write('%s\n' % date)
        for ip in date_ip_x[date]:
            f.write('%s\t%d\n' % (ip, date_ip_x[date][ip]))
        f.write('\n')

with open("date_pv_uv.txt", 'w') as f:
    f.write('\n####PV_of_date####\n')
    for date in pv_of_date:
        f.write('%s\t%d\n' % (date, pv_of_date[date]))
    f.write('\n####UV_of_date####\n')
    for date in uv_of_date:
        f.write('%s\t%d\n' % (date, uv_of_date[date]))

根据以上的几个步骤处理了之后，就可以得到我们想要的数据了~~

参考链接：

=END=

26 4 月, 2015

admin

KnowledgeBase, Linux, Programing, Tools

awk, nested, Python