该项目应客户需求,抓取 东城西城朝阳海淀二手房成交 数据

抓取字段为:房源id,房型,交易日期,位置,总价,朝向,装修情况,建筑年代,所在楼层,房屋年限,建筑面积,套内面积,电梯情况

——

抓取流程:

数据源分析:

分析网页数据存储,发现实际上数据便存储在 https://bj.lianjia.com/chengjiao/房源id.html 主文件中。

由于链家页数限制,若只抓取大分类(区)只能获取100*30条数据,因此必须从区的小分类入手抓取。

数据抓取:

构建正则,通过requests获取网页html文件,获取数据并存储到excel文件中。

最终获取147170条数据。

 

数据抓取联系QQ:2835379403

数据下载地址:http://pan.baidu.com/s/1cLao4Q

版权声明:本文为qingji123原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/qingji123/p/7440541.html