如何优雅的爬妹子网

原创 bihl. 发布于2019-11-23 15:56:11 阅读数 40214 收藏

更新于2019-11-23 15:56:11

from urllib import request
import os
from user_agents import ua_list
import time
import random
import re
import requests
from lxml import etree

class MeiziSpider():
    def __init__(self):
        self.url = 'https://www.mzitu.com/all/'

    def get_html(self, url):
        headers = {'User-Agent': random.choice(ua_list)}
        req = request.Request(url=url, headers=headers)
        res = request.urlopen(req)
        html = res.read()
        return html
        # print(html)

    def re_func(self, re_bds, html):
        pattern = re.compile(re_bds, re.S)
        r_list = pattern.findall(html)
        return r_list

    # 获取想要的数据 - 解析一级页面
    # def parse_html(self, url):
    #     one_html = self.get_html(url).decode()
    #     # print(one_html)
    #     re_bds = '<p class="url">.*?<a href="(.*?)" target="_blank">(.*?)</a>'
    #     one_list = self.re_func(re_bds, one_html)
    #     # print(one_list)
    #     # time.sleep(random.randint(1, 3))
    #     self.write_html(one_list)


    def parse_html(self,url):
        html = self.get_html(url).decode()
        parse_obj = etree.HTML(html)
        href_list = parse_obj.xpath('//div[@class="all"]/ul[@class="archives"]/li/p[@class="url"]/a/@href')
        print("href_list:",href_list)
        self.write_html(href_list)





    def write_html(self, href_list):
        for href in href_list:
            two_url = href
            print(two_url)
            time.sleep(random.randint(1, 3))
            self.save_image(two_url)

    def save_image(self, two_url):
        headers = {'Referer': two_url, 'User-Agent': random.choice(ua_list)}
        print('---------two_url-----------', two_url)
        # 向图片链接发请求.得到bytes类型
        i = 0
        while True:
            try:
                img_link = two_url + '/{}'.format(i)
                print("img_link:", img_link)
                html = requests.get(url=img_link, headers=headers).text
                re_bds = ' <div class="main-image"><p><a href="https://www.mzitu.com/.*?" ><img ' \
                         'src="(.*?)" alt="(.*?)" width=".*?" height=".*?" /></a></p>'
                img_html_list = self.re_func(re_bds, html)
                print("img_html_list", img_html_list)
                name = img_html_list[0][1]
                print("-----name:",name)
                direc = '/home/ubuntu/meizi/{}/'.format(name)
                print("direc:",direc)
                if not os.path.exists(direc):
                    os.makedirs(direc)
                img_ = requests.get(url=img_html_list[0][0], headers=headers).content
                filename = direc + name + img_link.split('/')[-1] + '.jpg'
                # print("img_:",img_)
                with open(filename, 'wb') as f:
                    f.write(img_)
                i += 1
            except Exception as e:
                break


if __name__ == '__main__':
    spider = MeiziSpider()
    spider.parse_html('https://www.mzitu.com/all')
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88

bihl.

发布了4 篇原创文章 · 获赞 75 · 访问量 4万+

私信关注

展开阅读全文

akkkkkkun23分钟前#54楼cy举报回复

x203654820小时前#53楼插举报回复

ahk晨曦1天前#52楼这是一篇有颜色的博客举报回复

Ovo_ing1天前#51楼插眼举报回复

leiyuchun11天前#50楼这玩意怎么用的啊举报回复

iskaol1天前#49楼真他娘是个人才哈哈哈举报回复

玄色江南1周前#48楼存在本地什么位置啊！代码里看不到啊！举报回复查看回复(1)

u0103691942天前#47楼插个眼举报回复

Burgess_Lyz3天前#46楼插个眼举报回复

天才小厨师杨一3天前#45楼人才+1举报回复

登录查看 73 条热评

如何优雅的爬妹子网

拉链卡到毛

老板来颗糖

九丐

OnlyPiglet

如何优雅的爬妹子网

爬妹子网图片

【爬虫】01-爬斗鱼妹子图

python3 爬煎蛋ooxx妹子图

爬一爬妹子网，看看妹子

原创|如何使用Python爬虫优雅的批量下载妹子图？|Python爬妹子

爬虫小程序 - 爬取王者荣耀全皮肤

程序员实用工具网站

dp

妹子图网站爬取工具

使用node.js如何爬取网站数据 - weixin_30379911的博客 - CSDN博客

...看不过来了,我一个G的硬盘要满了 - weixin_41334453的博客

微信分享之SPA的坑

...】Teleport Pro爬取整个网站镜像到本地 - weixin_30349597的博客

yapi的使用方法 - weixin_42333548的博客

从入门到精通，Java学习路线导航（附学习资源）

拉链卡到毛

老板来颗糖

九丐

OnlyPiglet

如何优雅的创建对象(一) - weixin_44130081的博客

爬取需要登录的页面 - weixin_30835923的博客

python爬虫-爬妹子图

史上最详细的IDEA优雅整合Maven+SSM框架（详细思路+附带源码）

这八个网站,是最有良心的分享,没有之一! - weixin_45066192的博客...

爬虫如何爬取微信公众号文章 - 静幽水 - CSDN博客

这八个网站，是最有良心的分享，没有之一！

...Ultra下载网站全部页面 爬虫 - weixin_30820151的博客 - CSDN...

...爬虫爬取微信朋友圈动态--附代码(下) - pdcfighting的博客 - ...

如何优雅的扒站——抓包篇

LeetCode解题汇总目录

Java入门学习路线目录索引（持续更新中）

Linux文件操作高频使用命令

围观微博网友发起的美胸比赛学习爬取微博评论内容

获取一篇新闻的全部信息

爬虫如何爬取微信公众号文章

爬取知乎热榜查看热度

免费好用的外网映射工具

redis——相关问题汇总

一生必看的纪录片

使用Python爬校花网,刚学习爬虫的同学可以看看

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）

史上最全的mysql基础教程

这也许是破解所有网站，当然是爬虫实现的

60 个让程序员崩溃的瞬间，哈哈哈哈哈哈哈哈哈

使用Requests库进行网页爬取

教你如何一秒爬取贴吧内容

爬虫之煎蛋网妹子图 大爬哦

数据结构：史上最全排序算法合集

苑昊博客链接

Python——画一棵漂亮的樱花树（不同种樱花+玫瑰+圣诞树喔）

python爬虫——爬取妹子网美女图片

一文读懂一台计算机是如何把数据发送给另一台计算机的

程序员必须掌握的核心算法有哪些？

从入门到精通，Java学习路线导航

花了20分钟，给女朋友们写了一个web版群聊程序

对计算机专业来说学历真的重要吗？

有哪些让程序员受益终生的建议

大学四年自学走来，这些私藏的实用工具/学习网站我贡献出来了

linux系列之常用运维命令整理笔录

大学四年，我把私藏的自学「学习网站/实用工具」都贡献出来了

中国麻将：世界上最早的区块链项目

比特币原理详解

python学习方法总结(内附python全套学习资料)

Python 基础（一）：入门必备知识

兼职程序员一般可以从什么平台接私活？

Python3.7编写个Python小病毒（U盘和电脑通中）......（纯属基友恶搞）

程序员接私活怎样防止做完了不给钱？

Python十大装B语法

数据库优化 - SQL优化

2019年11月全国程序员工资统计，区块链工程师比算法工资高。

2019年11月中国编程语言排行榜

通俗易懂地给女朋友讲：线程池的内部原理

Java中List集合介绍（炒鸡详细呦）

面试官：你连RESTful都不知道我怎么敢要你？

送给单身猿们的表白神器

刷了几千道算法题，这些我私藏的刷题网站都在这里了！

项目中的if else太多了，该怎么重构？

Nginx 原理和架构

致 Python 初学者

...Ultra下载网站全部页面爬虫 - weixin_30820151的博客 - CSDN...

爬虫之煎蛋网妹子图大爬哦