python爬虫（十六） -IndexError: list index out of range - 方木Fengl

zhaoxinhui 2021-08-21 原文

python爬虫（十六） -IndexError: list index out of range

在用lxml和xpath对一个网站进行解析，在解析的时候出现错误-IndexError: list index out of range

原因是在中这个网站的html代码中有的标识为空，只要加上try…..except 错误机制跳过空值就行了

例如：

html=etree.HTML(text)
ul=html.xpath("//ul[@class=\'lists\']")[0]
lis = ul.xpath("//li")
for li in lis:
 title=li.xpath("@data-title")[0]
    score=li.xpath("@data-score")[0]
    duration=li.xpath("@data-duration")[0]
    region=li.xpath("@data-region")[0]
    director=li.xpath("@data-director")[0]
    actors=li.xpath("@data-actors")[0]
    thumbnail=li.xpath(".//img/@src")[0]
    movie={
        \'title\':title,
        \'score\':score,
        \'duration\':duration,
        \'region\':region,
        \'director\':director,
        \'actors\':actors,
        \'thumbnail\':thumbnail
    }

    print(movie)

这个代码在运行之后就会出现错误：IndexError: list index out of range

修改之后的代码：

html=etree.HTML(text)
ul=html.xpath("//ul[@class=\'lists\']")[0]
lis = ul.xpath("//li")


for li in lis:
 try:
    title=li.xpath("@data-title")[0]
    score=li.xpath("@data-score")[0]
    duration=li.xpath("@data-duration")[0]
    region=li.xpath("@data-region")[0]
    director=li.xpath("@data-director")[0]
    actors=li.xpath("@data-actors")[0]
    thumbnail=li.xpath(".//img/@src")[0]
    movie={
        \'title\':title,
        \'score\':score,
        \'duration\':duration,
        \'region\':region,
        \'director\':director,
        \'actors\':actors,
        \'thumbnail\':thumbnail
    }

    print(movie)
 except IndexError:
    pass

版权声明：本文为zhaoxinhui原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/zhaoxinhui/p/12392438.html

python爬虫（十六） -IndexError: list index out of range - 方木Fengl的更多相关文章

JSP最常用的五种内置对象(out,request,response,session,application)
为了简化开发过程，JSP提供了一些内置对象，它们由容器实现和管理。开发者在JSP页面中无需声明，无需实例化就可 […]...
囚徒困境——纳什均衡 – burellow
囚徒困境——纳什均衡警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑 […]...
eclipse code templates 设置(eclipse注释模版配置) – 季枫
http://swiftlet.net/archives/1199 文件(Files)注释标签： /** […]...
人机交互设计——评价谷歌拼音输入法（安卓版） – 狞_JML
人机交互设计——评价谷歌拼音输入法（安卓版）这次人机交互设计作业博客我将对谷歌拼音输入法（安卓版 […]...
如何进行Web服务的性能测试 – zouhui
如何进行Web服务的性能测试 2017-01-19 03:28 zouhui 阅读(180) 评论(0) […]...
cookie和session的区别 – 千年霜雪
cookie和session的区别了解cookie & session 　　Web应用程序使用htt […]...
微信小程序登录状态 – cn2021
微信小程序登录状态我们知道，WEB服务器通过浏览器携带的cookie获取session来判断是否是同一用户（ […]...
Java集合框架 – 技术之路永无止境~
Java集合框架 Java集合框架早在Java2中之前。Java就提供了特设类。比如：Dictionary， […]...

随机推荐

一起学习x86/x64知识（一）
在实际工作中接触到一些与x86/x64平台底层的问题时，往往是遇到不懂的就翻翻Intel或AMD提供的手册，这 […]...
第一章-操作系统概论
什么是操作系统(OS)？　　　操作系统是控制和管理计算机系统内各种硬件和软件资源、有效的组织多道程序运行的 […]...
cudnn 安装步骤 – alexanderkun
cudnn 安装步骤上官网下载对应的cudnn https://developer.nvidia.com/c […]...
《C# 爬虫破境之道》：第二境爬虫应用 — 第七节：并发控制与策略
我们在第五节中提到一个问题，任务队列增长速度太快，与之对应的采集、分析、处理速度远远跟不上，造成内存快速增长， […]...
curl下载安装与使用
下载： https://curl.haxx.se/download.html 安装：二进制安装。即解压即可。 […]...
Keil5环境搭建
相关下载链接：https://pan.baidu.com/s/1JQbxmr15rlaLW5ak8RCFyw […]...
如何在title 添加logo
添加一下代码即可： <link rel=”shortcut icon” href […]...
Mac OS 10.12使用U盘重装（转）
OS X Capitan和macOS Sierra的安装方式和下载系统的方法都是一致的，下面是OS X Cap […]...

展开目录

目录导航