正则表达式查找网页源代码提取指定内容

xkdn 2021-09-04 原文

import requests
import re

txt=\'<a href=”https://www.vgirls.com/13404.html” class=”list-title text-md h-2x” target=”_blank”>想把夏日的阳光寄给冬日的你</a>\’
urla=re.findall(\'<a href=”(.*?)” class=”list-title text-md h-2x” target=”_blank”>.*?</a>\’,txt)
for i in urla:
print(i)
urlb=re.findall(\'<a href=”.*?” class=”list-title text-md h-2x” target=”_blank”>(.*?)</a>\’,txt)
for i in urlb:
print(i)
结果：

https://www.vgirls.com/13404.html
想把夏日的阳光寄给冬日的你

总结：

1。根据网页源代码找到关键位置，主要分析相关同一级别的源代码的共同点

2。找到关键如txt的内容，复制下来
3。粘贴到空白处：urla=re.findall(\’ \’,txt)
4.需要选择出来的部分去掉改成 (.*?)；不想选择但内容又变化的去掉改成 .?*,一定不能加括号

5。所以第一个只提取超级连接的地址；第二个只提取“标签A中的文字”

版权声明：本文为xkdn原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/xkdn/p/12243681.html

正则表达式查找网页源代码提取指定内容的更多相关文章

ES2018正则表达式更新
如果你是一个初学者，这篇文章可以拓展你对正则表达式用法的理解，不过建议你先阅读一些正则表达式入门文章，比如经典 […]...
正则表达式
1.关于正则表达式　　处理字符串时，有很多较为复杂的字符串用普通的字符串处理函数无法干净的完成。比如说，可能 […]...
JS中的正则表达式 <<<
关于正则表达式：　　　　正则表达式是对字符串(包括普通字符(例如，a 到 z 之间的字母)和特殊字符(称为& […]...
Python正则表达式
正则表达式（Regular expression）是组成搜索模式的一组字符序列，是记录文本规则的代码，用来检查 […]...
慕课笔记-JavaScript正则表达式
目录慕课网-JavaScript正则表达式笔记概述 RegExp对象修饰符元字符字符类范围类预定 […]...
50道常见的正则表达式练习题目（建议练习收藏）
声明：文章来源微信公众号：转行学数据分析。如需转载必须保留此段声明前言前面的文章介绍了正则表达式的基本语法 […]...
java正则表达式的知识
java正则表达式的知识 /** 用途:正则表达式 * 创建人：向家康 * 创建日期：2019年4月21日下 […]...
正则表达式
正则表达式正则表达式其实就是用于操作字符串的一个规则，使用了特殊的符号表示正则表达式对字符串的操作：匹配 […]...

随机推荐

Html-Css-iframe的自适应高度方案
先看一个示例，有两个页面，1.html通过iframe嵌入2.html，两 […]...
学习 .net core 3—-蒋金楠笔记构建 Asp.net core Web应用
前言：准备系统的学习一下.net core 所以购买了蒋金楠的 ASP.NET CORE 3 书籍，为了加深 […]...
C#文件和文件夹操作
C#文件和文件夹操作 http://www.csref.cn/vs100/method/System-IO-B […]...
字体大小的单位
字体大小属性用作修改字体显示的大小。我们通常用的是绝对长度(使用的单位为pt-像素和in-英寸) ,而sea […]...
基于快排思想的第(前)k大(小)
算法思路就是根据快排的partition，先随机选择一个分隔元素(或a[0])，将数组分为[小于a[p]的元素 […]...
局域网中CSMA/CD协议的应用
局域网局域网——使用广播信道的数据链路层，跨越数据链路层和物理层特点：网络为一个单位所拥有，且地理范围和站 […]...
java中的形参和实参 – 抄手砚
java中的形参和实参 java中向方法传递参数是，是将参数的副本传递进去，即方法运行时会被分配一块内存区域保 […]...
程序员，如何从开发转型做架构师？
人生就像射箭，如果连箭靶都找不到，那每天的拉弓又有何意义呢？本文主要价值是分享老兵哥我个人真实的从业经历经验， […]...

展开目录

目录导航