网站链接抓取脚本[bak]

本文最后更新于2014年7月3日,已超过 1 年没有更新,如果文章内容失效,还请反馈给我,谢谢!

利用Python的HTMLParser模块写的链接抓取脚本,其实可以改一改,让它只抓取非指定域名的链接地址,然后配合一个白名单就可以进行简单的挂马检测了`(*∩_∩*)′,脚本如下:

#!/usr/bin/env python
#coding: utf-8
#Attention: ValueError: unknown url type: www.baidu.com --> http://www.baidu.com

import sys
import urllib2
import re
import HTMLParser

reload(sys)
sys.setdefaultencoding('utf8')

class myparser(HTMLParser.HTMLParser):
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
    def handle_starttag(self, tag, attrs):
        if (tag == 'a')|(tag == 'img'):#可根据需要进行增删改
            for name, value in attrs:
                if (name == 'href')|(name == 'src'):#查询该上面两个标签的属性
                    val = re.search('http://', value)#匹配链接是否为可用链接
                    if val != None:
                        print value

if len(sys.argv)==3 and sys.argv[1] == '-u':
    content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容
    con = myparser()
    con.feed(content)#把content的内容,传给myparser分析
else:
    print 'Usage:%s -u url'%sys.argv[0]

暂时还没有修改,以后有机会再说吧……

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/360.html

《网站链接抓取脚本[bak]》上的3个想法

发表评论

邮箱地址不会被公开。 必填项已用*标注