BeautifulSoup 常用方法

mmbbflyer 2021-08-05 原文

#输出所得标签的‘’属性值

获取 head里面的第一个meta的content值

soup.head.meta[\'content\']

获取第一个span的内容

soup.span.string

获取第一个span的内容

soup.span.text

name属性叫keywords 所有对象

soup.find_all(attrs={\'name\':\'keywords\'})

获取样式site_name所有标签
soup.find_all(class_=\'site_name\')

soup.find(attrs={\'name\':\'keywords\'})获取第一个属性名name 值是keywords的标签

soup.find(\'meta\',attrs={\'name\':\'keywords\'})获取第一个meta标签 name属性是keywords的标签

print(soup.find(\'meta\',attrs={\'name\':\'keywords\'})[\'content\'])获取第一个meta标签name属性值是keywords的 内容值

print(soup.find(\'meta\',attrs={\'name\':re.compile(\'keywords\',re.IGNORECASE)})) 获取第一个meta标签 name属性值是 不区分大小写的keywords的标签

soup = BeautifulSoup(html,"html.parser")
meta=soup.meta//获取meta标签
attrsList = meta.attrs;//获取meta标签的所有属性元组
print "attrsList=",attrsList;
print meta.name//获取标签的名字

当html为ASCII或UTF-8编码时，可以不指定html字符编码，便可正确解析html为对应的soup：
当html为其他类型编码，比如GB2312的话，则需要指定相应的字符编码，BeautifulSoup才能正确解析出对应的soup：
htmlCharset = "GB2312";

soup = BeautifulSoup(respHtml, fromEncoding=htmlCharset);

版权声明：本文为mmbbflyer原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/mmbbflyer/p/5687250.html

BeautifulSoup 常用方法的更多相关文章

BeautifulSoup 的用法
转自：http://cuiqingcai.com/1319.html Beautiful Soup支持Pyth […]...
Python 利用 BeautifulSoup 爬取网站获取新闻流
利用 Requests 和 BeautifulSoup，周期性爬取网站，获取新闻流数据 0. 引言　　介绍下 […]...
使用requests+BeautifulSoup爬取龙族V小说
这几天想看龙族最新版本，但是搜索半天发现没有网站提供下载，我又只想下载后离线阅读（写代码已经很费眼睛了） […]...
Preference的相关类及常用方法
前几篇博客介绍的参数的xml配置中所使用到的一些参数标签，其实都是一些系统中实现好的类，他们负责 […]...
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片其实没太大用， […]...
python BeautifulSoup 获取页面多个子节点中的各个节点的内容
python BeautifulSoup 获取页面多个子节点中的各个节点的内容页面html格式为 <t […]...
python BeautifulSoup 爬虫运行出现 exited with code -1073741571
首先，exited with code -1073741571意思是栈溢出。具体可以看https://blog […]...
Beautifulsoup
目录 Beautifulsoup selector Beautiful Soup 遍历下行遍历上行遍历平 […]...

随机推荐

QQ全系列官方下载地址
QQ2004 腾讯QQ2004 正式sp1版 http://dl_dir.qq.com/qqfile/qq20 […]...
JDK安装路径下的JRE与独立安装的JRE区别
在JDK安装目录下的子文件下，已经默认安装了一个jre。且与独立安装的JRE6所包含的文件几乎完全 […]...
jquery让form表单异步提交
1.监听表单提交事件,并阻止表单提交 $("form").submit(function(e) { retur […]...
Spring WebFlux之HttpHandler的探索
这是本人正在写的《Java 编程方法论：响应式Reactor3、Reactor-Netty和Spring We […]...
C语言I作业004
C语言I作业004 这个作业属于那个课程 C语言程序设计II 这个作业要求在哪里作业我在这个课程的目标是 […]...
Jmeter 逻辑控制器之事务控制器
前面我在做性能测试的时候，由于我们的系统是需要登录的，登录成功后，系统默认加载其订单数据，因此在用户看来这是一 […]...
iOS APP下载安装时，如果出现此时无法下载安装APP的字样时，一些解决思路
1.在iosAPP下载安装时，如果出现此时无法下载安装APP的字样时，可能是苹果系统进行了支持更新，并需要我们 […]...
富贵在天，介绍我先
初次见面，请多关照。博客这个东西应该是与更多的人交流的软件，让你学习到更多的知识，认识到更多优秀的人。集思广 […]...

展开目录

目录导航