Scrapy爬虫错误日志汇总

beiyi888 2019-02-26 原文

Scrapy爬虫错误日志汇总

Posted on 2019-02-26 14:41 BoomOoO 阅读(…) 评论(…) 编辑收藏

1、数组越界问题(list index out of range)

原因：第1种可能情况：list[index]index超出范围,也就是常说的数组越界。

　　　第2种可能情况：list是一个空的，没有一个元素，进行list[0]就会出现该错误，这在爬虫问题中很常见，比如有个列表爬下来为空，统一处理就会报错。

解决办法：从你的网页内容解析提取的代码块中找找看啦（人家比较习惯xpath + 正则），加油 ~

2、http状态代码没有被处理或允许(http status code is not handled or not allowed)

原因：就是你的http状态码没有被识别，需要在settings.py中添加这个状态码信息，相当于C语言中的＃define预处理宏定义命令吧（我这么理解）

解决办法：在你的setting.py中，添加这么一句短小精悍的话就OK了，紧接着就等着高潮吧您呐：HTTPERROR_ALLOWED_CODES = [403]

此篇文章持续更新，未完待续….

欢迎大家留下自己的问题，互相讨论，互相学习，互相总结，，，，

本文链接：https://www.cnblogs.com/beiyi888/p/10437232.html

Scrapy爬虫错误日志汇总的更多相关文章

python查漏补缺 — 基础概念及控制结构

python查漏补缺 — 基础概念及控制结构 Posted on 2019-07-29 10:10 […]...

python基础小结

1、常用的格式符号 2、input函数 3、在程序中，看到了%这样的操作符，这就是python中的格式 […]...

hive常用正则表达式

hive常用正则表达式 Posted on 2019-03-01 18:42 BoomOoO 阅读(̷ […]...

python之isinstance内建函数

python之isinstance内建函数 Posted on 2019-02-15 15:54 BoomOo […]...

python之strip()小记

python之strip()小记 Posted on 2019-02-14 13:24 BoomOoO 阅读( […]...

python查漏补缺 — 模块及异常

python查漏补缺 — 模块及异常 Posted on 2019-07-29 13:15 Boo […]...

python之turtle简单绘制学习

python之turtle简单绘制学习 Posted on 2019-02-15 13:47 BoomOoO […]...

随机推荐

笔试准备-牛客-京东算法岗试卷-单选/不定项/编程

目的：准备2020京东春季实习生笔试 2020/04/18 星期六 19:00-21:00 选择30道：估计做 […]...

Java 集合系列07之 Stack详细介绍(源码解析)和使用示例 – 如果天空不死

Java 集合系列07之 Stack详细介绍(源码解析)和使用示例概要学完Vector了之后，接下来我 […]...

实现工具自由，开源的桌面工具箱

在一切开始之前，首先要致敬 uTools！如果没有它就没有 Rubick。大家好，我是“拉比克”（Rubi […]...

秒懂Dubbo接口（原理篇）

引言背景单一应用架构垂直应用架构分布式服务架构流动计算架构为什么要用 Dubbo? 什么是分布式? […]...

Discuz核心函数的解析

dz采用的是多入口的方式，在每个入口函数你能看到引用，启动核心类的语句（其余省略），如下： require \ […]...

基于Apollo实现.NET Core微服务统一配置(测试环境-单机)

一、前言注：此篇只是为测试环境下的快速入门。后续会给大家带来生产环境下得实战开发。具体的大家可以去看官方推 […]...

安卓的一些UI美化框架的使用

目录一、前言二、Android-Bootstrap GitHub地址使用方法三、Sweet Alert […]...

python通过手机抓取微信公众号

使用 Fiddler 抓包分析公众号打开微信随便选择一个公众号，查看公众号的所有历史文章列表在 Fi […]...

Scrapy爬虫错误日志汇总