网站链接抓取脚本[bak]


利用Python的HTMLParser模块写的链接抓取脚本,其实可以改一改,让它只抓取非指定域名的链接地址,然后配合一个白名单就可以进行简单的挂马检测了`(*∩_∩*)′,脚本如下:

#!/usr/bin/env python
#coding: utf-8
#Attention: ValueError: unknown url type: www.baidu.com --> http://www.baidu.com

import sys
import urllib2
import re
import HTMLParser

reload(sys)
sys.setdefaultencoding('utf8')

class myparser(HTMLParser.HTMLParser):
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
    def handle_starttag(self, tag, attrs):
        if (tag == 'a')|(tag == 'img'):#可根据需要进行增删改
            for name, value in attrs:
                if (name == 'href')|(name == 'src'):#查询该上面两个标签的属性
                    val = re.search('http://', value)#匹配链接是否为可用链接
                    if val != None:
                        print value

if len(sys.argv)==3 and sys.argv[1] == '-u':
    content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容
    con = myparser()
    con.feed(content)#把content的内容,传给myparser分析
else:
    print 'Usage:%s -u url'%sys.argv[0]

暂时还没有修改,以后有机会再说吧……

,

《 “网站链接抓取脚本[bak]” 》 有 3 条评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注