利用Python的HTMLParser模块写的链接抓取脚本,其实可以改一改,让它只抓取非指定域名的链接地址,然后配合一个白名单就可以进行简单的挂马检测了`(*∩_∩*)′,脚本如下:
#!/usr/bin/env python
#coding: utf-8
#Attention: ValueError: unknown url type: www.baidu.com --> http://www.baidu.com
import sys
import urllib2
import re
import HTMLParser
reload(sys)
sys.setdefaultencoding('utf8')
class myparser(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
def handle_starttag(self, tag, attrs):
if (tag == 'a')|(tag == 'img'):#可根据需要进行增删改
for name, value in attrs:
if (name == 'href')|(name == 'src'):#查询该上面两个标签的属性
val = re.search('http://', value)#匹配链接是否为可用链接
if val != None:
print value
if len(sys.argv)==3 and sys.argv[1] == '-u':
content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容
con = myparser()
con.feed(content)#把content的内容,传给myparser分析
else:
print 'Usage:%s -u url'%sys.argv[0]
暂时还没有修改,以后有机会再说吧……
《 “网站链接抓取脚本[bak]” 》 有 3 条评论
抓取学习笔记
http://blog.arganzheng.me/posts/spider-study.html
网站抓取工具 website-scraper
https://blog.meathill.com/tech/website-scraper.html
https://www.npmjs.com/package/website-scraper
`
临时需要抓一个网站,搜索了一下,发现 website-scraper,用了一下感觉不错。它有如下优点:
· 基于 Node.js 和 NPM,系统无关
· 可以根据链接抓取整个网站
· 文档齐全,仓库还有人维护
`
如何使用Photon高效率提取网站数据
https://github.com/s0md3v/Photon
http://www.freebuf.com/sectool/179967.html
`
Incredibly fast crawler which extracts urls, emails, files, website accounts and much more.
会提取url, 电子邮件, 文件, 网站帐户等信息的爬虫
`