利用Python的HTMLParser模块写的链接抓取脚本,其实可以改一改,让它只抓取非指定域名的链接地址,然后配合一个白名单就可以进行简单的挂马检测了`(*∩_∩*)′,脚本如下:
#!/usr/bin/env python #coding: utf-8 #Attention: ValueError: unknown url type: www.baidu.com --> http://www.baidu.com import sys import urllib2 import re import HTMLParser reload(sys) sys.setdefaultencoding('utf8') class myparser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): if (tag == 'a')|(tag == 'img'):#可根据需要进行增删改 for name, value in attrs: if (name == 'href')|(name == 'src'):#查询该上面两个标签的属性 val = re.search('http://', value)#匹配链接是否为可用链接 if val != None: print value if len(sys.argv)==3 and sys.argv[1] == '-u': content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容 con = myparser() con.feed(content)#把content的内容,传给myparser分析 else: print 'Usage:%s -u url'%sys.argv[0]
暂时还没有修改,以后有机会再说吧……
《 “网站链接抓取脚本[bak]” 》 有 3 条评论
抓取学习笔记
http://blog.arganzheng.me/posts/spider-study.html
网站抓取工具 website-scraper
https://blog.meathill.com/tech/website-scraper.html
https://www.npmjs.com/package/website-scraper
`
临时需要抓一个网站,搜索了一下,发现 website-scraper,用了一下感觉不错。它有如下优点:
· 基于 Node.js 和 NPM,系统无关
· 可以根据链接抓取整个网站
· 文档齐全,仓库还有人维护
`
如何使用Photon高效率提取网站数据
https://github.com/s0md3v/Photon
http://www.freebuf.com/sectool/179967.html
`
Incredibly fast crawler which extracts urls, emails, files, website accounts and much more.
会提取url, 电子邮件, 文件, 网站帐户等信息的爬虫
`