python 爬取百度图片

zhoulixue 2021-12-13 原文

# coding=utf-8
"""根据搜索词下载百度图片"""
import re
import sys
import urllib

import requests


def get_onepage_urls(onepageurl):
    """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url"""
    if not onepageurl:
        print(\'已到最后一页, 结束\')
        return [], \'\'
    try:
        html = requests.get(onepageurl).text
    except Exception as e:
        print(e)
        pic_urls = []
        fanye_url = \'\'
        return pic_urls, fanye_url
    pic_urls = re.findall(\'"objURL":"(.*?)",\', html, re.S)
    fanye_urls = re.findall(re.compile(r\'<a href="(.*)" class="n">下一页</a>\'), html, flags=0)
    fanye_url = \'http://image.baidu.com\' + fanye_urls[0] if fanye_urls else \'\'
    return pic_urls, fanye_url


def down_pic(pic_urls):
    """给出图片链接列表, 下载所有图片"""
    for i, pic_url in enumerate(pic_urls):
        try:
            pic = requests.get(pic_url, timeout=15)
            string = str(i + 1) + \'.jpg\'
            with open(string, \'wb\') as f:
                f.write(pic.content)
                print(\'成功下载第%s张图片: %s\' % (str(i + 1), str(pic_url)))
        except Exception as e:
            print(\'下载第%s张图片时失败: %s\' % (str(i + 1), str(pic_url)))
            print(e)
            continue


if __name__ == \'__main__\':
    keyword = \'bus\'  # 关键词, 改为你想输入的词即可, 相当于在百度图片里搜索一样
    url_init_first = r\'http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1497491098685_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1497491098685%5E00_1519X735&word=\'
    url_init = url_init_first + urllib.quote(keyword, safe=\'/\')
    all_pic_urls = []
    onepage_urls, fanye_url = get_onepage_urls(url_init)
    all_pic_urls.extend(onepage_urls)

    fanye_count = 0  # 累计翻页数
    while 1:
        onepage_urls, fanye_url = get_onepage_urls(fanye_url)
        fanye_count += 1
        print(\'第%s页\' % fanye_count)
        if fanye_url == \'\' and onepage_urls == []:
            break
        all_pic_urls.extend(onepage_urls)

    down_pic(list(set(all_pic_urls)))

版权声明：本文为zhoulixue原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/zhoulixue/p/8394959.html

python 爬取百度图片的更多相关文章

python
Python知识点for 循环for i in range(0,5): 输出结果是0,1,2,3,4for i in range(0,5,3): 输出结果是0,3for x in 字符串for x in len（）...
Flask 上下文机制和线程隔离
1. 计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决，上下文机制就是这句话的体现。 2. 如果 […]...
科学计算库Numpy——数组形状
改变数组维数给数组的shape属性赋值，改变数组的维数。数组的大小是不能改变的。增加维度使用np.new […]...
python redis模块详解
前言现在越来越觉得知识的沉淀尤为重要，最近打算慢慢的把一些知识点做个记录，如果长期不用生疏了也可以快速回顾 […]...
性能测试基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据
基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据 by:授客 QQ […]...
大量Python开源第三方库资源分类整理，含菜鸟教程章节级别链接
Python是一种面向对象的解释型计算机程序设计语言，由荷兰人Guido van Rossum于1989年发明 […]...
Numpy&Pandas
Numpy & Pandas 简介此篇笔记参考来源为《莫烦Python》运算速度快：numpy 和 […]...
Python 代码混淆和加密技术
动机 Python进行商业开发时, 需要有一定的安全意识, 为了不被轻易的逆向. 混淆和加密就有所必要了. 混 […]...

随机推荐

免费的数字证书-Cacert
刚刚在CB上看到这条消息《CACert:免费的数字证书组织》。给自己的网站去申请了一个，挺不错的，不再需要每次 […]...
举例实用详解sc.textFile()和wholeTextFiles()
谈清楚区别，说明白道理，从案例开始： 1 数据准备用hdfs存放数据，且结合的hue上传准备的数据，我的hu […]...
程序员怎样提升自我，应对寒冬
国内的信息产业环境不成熟，举个最明显的例子，目前编程领域的从业人员超过半数都是通过培训机构出来的，甚至那些 […]...
电脑键盘背景灯无法控制
电脑不知道在什么时候更新后键盘的背景灯就无法通过fn+f3和fn+f4来控制了。华硕电脑解决办法在左下角搜 […]...
SpringMVC 框架系列之初识与入门实例
微信公众号：compassblog 欢迎关注、转发，互相学习，共同进步！有任何问题，请后台留言联系！ 1、S […]...
一文读懂DDD – 春哥大魔王
一文读懂DDD 2019-05-28 19:18 春哥大魔王阅读(2988) 评论(3) 编辑收 […]...
Vue：在vue-cli中使用Bootstrap
一、安装jQuery Bootstrap需要依赖jQuery，所以引用Bootstrap之前要先引用jQuer […]...
痞子衡嵌入式：嵌入式里堆栈原理及其纯C实现
　　大家好，我是痞子衡，是正经搞技术的痞子。今天痞子衡给大家讲的是嵌入式里堆栈原理及其纯C实现。　　今天给大 […]...

展开目录

目录导航