爬虫入门

Jack666 2018-10-28 原文

爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。

根据被爬网站的数量的不同，我们把爬虫分为：

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是道德层面上的约束。

浏览器会主动请求js，css等内容，js会修改页面的内容，js也可以重新发送请求，最后浏览器渲染出来的内容在elements中，其中包含css，图片，js，url地址对应的响应等。

但是在爬虫中，爬虫只会请求url地址，对应的拿到url地址对应的响应。浏览器渲染出来的页面和爬虫请求的页面并不一样。所以在爬虫中，需要以url地址对应的响应为准来进行数据的提取。

本文内容涞源于罗刚老师的书籍 << 自己动手写网络爬虫一书 >> ; 本文将 […]...

本文内容：交换机制网页解析爬虫所需的模块和库目录扫描工具原理实战 Python爬虫入门[spide […]...

HTTP请求 1.首先需要了解一下http请求，当用户在地址栏中输入网址，发送网络请求的过程是什么？可以参考 […]...

随机推荐

JAVA并发(5)-并发队列LinkedBlockingQueue的分析本文介绍LinkedBlocking […]...

统计——期望与方差

一，古典概型：　　1，事件的关系　　2，事件的独立及乘法公式　　3，全概率公式：P（B）=E(1-n) […]...

MAC快捷键恢复已最小化的应用在使用MAC系统的过程中，有时候会把应用窗口最小化，在按cmd+tab切换应用 […]...

M2 是带有内置负载平衡器的 Node.js 应用程序的生产过程管理器。可以利用它来简化很多 Node 应用管理的繁琐任务，如性能监控、自动重启、负载均衡等。安装部署1、我们一般会把 pm2 安装到全局：npm install pm...

在这个信息爆炸的时代，数据存储与我们每一个人息息相关。从打孔卡到软盘硬盘再到中心化云端存储服务，人类在寻求更便 […]...

淘宝广告用户行为研究

声明：源文章本人发布在知乎账号：可乐，地址：https://zhuanlan.zhihu.com/p/5520 […]...

python笔记11

python笔记11 今日内容函数小高级 lambda 表达式内置函数内容回顾函数基本结构参数形参 […]...

Hadoop集群搭建 1.修改/etc/hosts文件在每台linux机器上，sudo vim /etc […]...

爬虫入门的更多相关文章