Rosi图片抓取的PHP脚本


从别人的blog中转来的,抓取的图片其实都是次要的,主要是看看正则的编写(毕竟PHP的单线程虽然说在图片爬取上面不算是明显的劣势,但是速度毕竟还是慢了些,适合放在VPS上慢慢抓取,爬虫这个东西如果抓取的太快太频繁导致别人屏蔽你就不太好了……):

<?php
    set_time_limit(0);
    function grabImage($url, $filename = ''){
        ob_start();
        readfile($url);
        $img_data = ob_get_contents();
        ob_end_clean();
        $size = strlen($img_data);
        $local_file = fopen($filename , 'a');
        fwrite($local_file, $img_data);
        fclose($local_file);
        return $filename;
    }
    $base = "http://missmm.com/";
    function a0($s){
        if($s < 10){
            return "00".$s;
        }elseif($s <100){
            return "0".$s;
        }else{
            return $s;
        }
    };
    for($i=763;$i>0;$i--){
        $html = file_get_contents($base.a0($i).".html");
        preg_match_all('/http.*?dulei.si.*?jpg/i', $html,$arr);
        foreach($arr[0] as $v){
            $data = pathinfo($v);
            grabImage($v,$data["basename"]);
            sleep(1);
        }
    }
?>

原文地址:http://fuck.0day5.com/?p=767

,

《 “Rosi图片抓取的PHP脚本” 》 有 9 条评论

  1. GitHub 上有哪些优秀的 Python 爬虫项目? – 龙鹏-言有三 的回答 – 知乎
    https://www.zhihu.com/question/58151047/answer/640461600
    https://zhuanlan.zhihu.com/p/61289585
    `
    1 综述类项目与学习资料
    首先给大家介绍一些非常优秀的综述和学习类项目,方便大家快速索引找到所需要的资源。
    1.1、awesome-spider
    地址:https://github.com/facert/awesome-spider
    这一款爬虫,里面搜集了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到QQ,还有很多的不可描述的网站,你懂的。

    1.2、Nyspider
    地址:https://github.com/Nyloner/Nyspider

    3、awesome-python-login-model
    地址:https://github.com/CriseLYJ/awesome-python-login-model
    这是ID为CriseLYJ(职业不详)的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。
    先从这个项目开始分析各大网站的登录方式,非常有用,可谓摸清对手再动手。

    4、python-spider
    地址:https://github.com/Jack-Cherish/python-spider
    这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,star6000+,包含不少的实战项目,非常适合想学习的朋友。

    其他还有一些项目,不再一一介绍。
    https://github.com/jhao104/proxy_pool
    https://github.com/Ehco1996/Python-crawler

    2 优秀图片/视频项目

    笔者的精力多在图像和视频,所以下面各自介绍一个功能强大,简单好用的图片和视频爬虫。
    工具亲测长期有效,省去了很多找爬虫工具的时间,早用早好。

    2.1、Google,Baidu,Bing三大搜素引擎图片爬虫
    地址:https://github.com/sczhengyabin/Image-Downloader

    这个爬虫由ID为sczhengyabin的用户整理,可以按要求爬取百度、Bing、Google上的图片,我已经用了几年了,提供了非常人性化的GUI方便操作,使用方法如下:
    使用python image_downloader_gui.py调用GUI界面,配置好参数(关键词,路径,爬取数目等),关键词可以直接在这里输入也可以选择从txt文件中选择。
    可以配置需要爬取的样本数目,这里一次爬了2000张,妥妥的3分钟搞定。
    这个爬虫足够满足小型项目初始数据集的积累(爬几千张高质量图片妥妥的),结果命名也非常整齐规范,最大的优势就是稳定啊,不会三天两天不能用了。

    2、各大视频网站爬虫
    地址:https://github.com/iawia002/annie
    由ID为iawia002的用户整理,Annie是一款以go语言编码的视频下载工具,使用便捷并支持youtube,腾讯视频,抖音等多个网站视频和图像的下载,可以说是该有的都有的。
    `

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注