ASPIRE

网站链接抓取脚本[bak]

利用Python的HTMLParser模块写的链接抓取脚本，其实可以改一改，让它只抓取非指定域名的链接地址，然后配合一个白名单就可以进行简单的挂马检测了`(*∩_∩*)′，脚本如下：

#!/usr/bin/env python
#coding: utf-8
#Attention: ValueError: unknown url type: www.baidu.com --> http://www.baidu.com

import sys
import urllib2
import re
import HTMLParser

reload(sys)
sys.setdefaultencoding('utf8')

class myparser(HTMLParser.HTMLParser):
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
    def handle_starttag(self, tag, attrs):
        if (tag == 'a')|(tag == 'img'):#可根据需要进行增删改
            for name, value in attrs:
                if (name == 'href')|(name == 'src'):#查询该上面两个标签的属性
                    val = re.search('http://', value)#匹配链接是否为可用链接
                    if val != None:
                        print value

if len(sys.argv)==3 and sys.argv[1] == '-u':
    content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容
    con = myparser()
    con.feed(content)#把content的内容，传给myparser分析
else:
    print 'Usage:%s -u url'%sys.argv[0]

暂时还没有修改，以后有机会再说吧……

3 7 月, 2014

admin

Programing, Tools

HTMLParser, Python

《 “网站链接抓取脚本[bak]” 》有 3 条评论

a-z说道：

2017-02-01 16:18

抓取学习笔记
http://blog.arganzheng.me/posts/spider-study.html

回复
a-z说道：

2018-02-11 10:55

网站抓取工具 website-scraper
https://blog.meathill.com/tech/website-scraper.html
https://www.npmjs.com/package/website-scraper
`
临时需要抓一个网站，搜索了一下，发现 website-scraper，用了一下感觉不错。它有如下优点：
· 基于 Node.js 和 NPM，系统无关
· 可以根据链接抓取整个网站
· 文档齐全，仓库还有人维护
`

回复
hi说道：

2018-08-16 19:57

如何使用Photon高效率提取网站数据
https://github.com/s0md3v/Photon
http://www.freebuf.com/sectool/179967.html
`
Incredibly fast crawler which extracts urls, emails, files, website accounts and much more.
会提取url, 电子邮件, 文件, 网站帐户等信息的爬虫
`

回复

网站链接抓取脚本[bak]

《 “网站链接抓取脚本[bak]” 》 有 3 条评论

发表回复 取消回复

《 “网站链接抓取脚本[bak]” 》有 3 条评论

发表回复取消回复