数据抓取 | 数据分享
该项目应客户需求,抓取 东城西城朝阳海淀二手房成交 数据
抓取字段为:房源id,房型,交易日期,位置,总价,朝向,装修情况,建筑年代,所在楼层,房屋年限,建筑面积,套内面积,电梯情况
——
抓取流程:
数据源分析:
分析网页数据存储,发现实际上数据便存储在 https://bj.lianjia.com/chengjiao/房源id.html 主文件中。
由于链家页数限制,若只抓取大分类(区)只能获取100*30条数据,因此必须从区的小分类入手抓取。
数据抓取:
构建正则,通过requests获取网页html文件,获取数据并存储到excel文件中。
最终获取147170条数据。
数据抓取联系QQ:2835379403
数据下载地址:http://pan.baidu.com/s/1cLao4Q