python爬虫（爬取视频）

pythonywy 2021-11-17 原文

爬虫爬视频

爬取步骤

第一步：获取视频所在的网页

第二步：F12中找到视频真正所在的链接

第三步：获取链接并转换成二进制

第四部：保存

保存步骤代码

import re
import requests
response =  requests.get(\'https://vd4.bdstatic.com/mda-jcrx64vi5vct2d2u/sc/mda-jcrx64vi5vct2d2u.mp4?auth_key=1557734214-0-0-d6a29a90222c6caf233e8a2a34c2e37a&bcevod_channel=searchbox_feed&pd=bjh&abtest=all\')
video = response.content         #把文件保存成二进制
with open(r\'D:\图片\绿色.mp4\',\'wb\') as fw:
    fw.write(video)           #将文件内容写入该文件
    fw.flush()               #刷新

爬酷6首页的所有视频

#有点偷懒变量名用简单字母啦.............
# https://www.ku6.com/index
# <a class="video-image-warp" target="_blank" href="(.*?)">
#this.src({type: "video/mp4", src: "(.*?)"})
#src({type: "video/mp4", src: "(.*?)"})
import re  # 载入模块
import requests  # 载入模块
new_list = []
time = 0
response = requests.get(\'https://www.ku6.com/index\')
data = response.text
# print(data)
url = re.findall(\'<a class="video-image-warp" target="_blank" href="(.*?)">\',data)
for a in url : #type:str
    if a.startswith(\'/v\') or a.startswith(\'/d\'):
        new_list.append(f\'https://www.ku6.com{a}\')
    elif a.startswith(\'ht\'):
        new_list.append(f"{a.split(\'垃\')[0]}")
for url_1 in new_list:
    response_1 = requests.get(url_1)
    data_1 = response_1.text
    video = re.findall(\'<source src="(.*?)" type="video/mp4">\',data_1) or re.findall(\'type: "video/mp4", src: "(.*?)"\',data_1)
    video_1 = video[0]
    x = video_1.split(\'/\')[-1]
    name = f\'{x}.mp4\'
    video_response = requests.get(video_1)
    video_3 = video_response.content
    with open(f\'D:\图片\{name}\',\'wb\') as fw:
        fw.write(video_3)
        fw.flush()
        time += 1
        print(f\'已经爬取{time}个视频\')

版权声明：本文为pythonywy原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/pythonywy/p/10857032.html

python爬虫（爬取视频）的更多相关文章

[Python爬虫] 之十五：Selenium +phantomjs根据微信公众号抓取微信文章
[Python爬虫] 之十五：Selenium +phantomjs根据微信公众号抓取微信文章　　借助搜索微 […]...
Python数据抓取_BeautifulSoup模块的使用
在数据抓取的过程中，我们往往都需要对数据进行处理本篇文章我们主要来介绍python的HTML和XML的分析库 […]...
python爬虫——链家二手房
python爬虫——链家二手房相信大家买房前都会在网上找找资料，看看行情，问问朋友，今天就带大家扒一扒《链家 […]...
Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
写在前面从今天开始的几篇文章，我将就国内目前比较主流的一些在线学习平台数据进行抓取，如果时间充足的情况下，会 […]...
爬虫到底违法吗？这位爬虫工程师给出了答案
六月分享主题：爬虫HTTP详解网页结构简介一文带你了解爬虫大家好，本期将为大家来采访一位爬虫工程师，与他相识 […]...
94、存储库之MongoDB、mysql
本篇导航：简介 MongoDB基础知识安装基本数据类型 CRUD操作其它存储库之mysql 一、 […]...
python3之MongoDB
1、MongoDB简介 MongoDB 是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。在高 […]...
Python爬虫入门教程 25-100 知乎文章图片爬取器之一
1. 知乎文章图片写在前面今天开始尝试爬取一下知乎，看一下这个网站都有什么好玩的内容可以爬取到，可能断断续续 […]...

随机推荐

pythoncharm 中解决启动server时出现 “django.core.exceptions.ImproperlyConfigured: Requested setting DEBUG, but settings are not configured”的错误
背景介绍最近，尝试着用pythoncharm 这个All-star IDE来搞一搞Django，于是乎，下载 […]...
前端开发神器之chrome 综述
作为前端工程师，也许你对chrome开发工具不陌生，但也谈不上对各个模块有深入了解。本文主要是为chrome […]...
WPF基础之样式
样式基础样式(Style)是组织和重用格式化选项的重要工具。不是使用重复的标记填充XAML,以便 […]...
自从有了这个工具，一键代码迁移不在话下
摘要：鲲鹏开发套件Kunpeng DevKit可实现两人天快速完成代码迁移，提供全栈开发工具，集代码迁移、编译 […]...
awakeFromNib与viewDidLoad的区别
当一个nib文件对应两个类，File\’s Owner的class为XXXViewControll […]...
10行Python代码制作群聊提醒小助手，再也不怕漏掉消息了
前言大家还记得教会父母玩微信是什么时候吗？父母学会后，我们的生活就发生了「质」的变化，父母也许会吐槽你的微 […]...
ASP.NET Core中使用GraphQL – 第六章使用EF Core作为持久化仓储
ASP.NET Core中使用GraphQL ASP.NET Core中使用GraphQL – 第 […]...
Docker 入门：什么是 Docker ?
Docker 解决了软件环境部署复杂的问题。对于一个传统的软件工程，开发人员把写好的代码放到服务器上去运行是 […]...

展开目录

目录导航