python爬虫——链家二手房

qiuwuzhidi 2021-10-05 原文

python爬虫——链家二手房

相信大家买房前都会在网上找找资料，看看行情，问问朋友，今天就带大家扒一扒《链家二手房》的数据：

一、查找数据所在位置：

打开链家官网，进入二手房页面，选取某个城市，可以看到该城市房源总数以及房源列表数据。

二、确定数据存放位置：

某些网站的数据是存放在html中，而有些却api接口，甚至有些加密在js中，还好链家的房源数据是存放到html中：

三、获取html数据：

通过requests请求页面，获取每页的html数据

# 爬取的url,默认爬取的南京的链家房产信息
url = \'https://nj.lianjia.com/ershoufang/pg{}/\'.format(page)
# 请求url
resp = requests.get(url, headers=headers, timeout=10)

四、解析html，提取有用数据：

通过BeautifulSoup解析html，并提取相应有用的数据

soup = BeautifulSoup(resp.content, \'lxml\')
# 筛选全部的li标签
sellListContent = soup.select(\'.sellListContent li.LOGCLICKDATA\')
# 循环遍历
for sell in sellListContent:
    # 标题
    title = sell.select(\'div.title a\')[0].string
    # 先抓取全部的div信息，再针对每一条进行提取
    houseInfo = list(sell.select(\'div.houseInfo\')[0].stripped_strings)
    # 楼盘名字
    loupan = houseInfo[0]
    # 对楼盘的信息进行分割
    info = houseInfo[0].split(\'|\')
    # 房子类型
    house_type = info[1].strip()
    # 面积大小
    area = info[2].strip()
    # 房间朝向
    toward = info[3].strip()
    # 装修类型
    renovation = info[4].strip()
    # 房屋地址
    positionInfo = \'\'.join(list(sell.select(\'div.positionInfo\')[0].stripped_strings))
    # 房屋总价
    totalPrice = \'\'.join(list(sell.select(\'div.totalPrice\')[0].stripped_strings))
    # 房屋单价
    unitPrice = list(sell.select(\'div.unitPrice\')[0].stripped_strings)[0]

以上就是我的分享，如果有什么不足之处请指出，多交流，谢谢！

如果喜欢，请关注我的博客：https://www.cnblogs.com/qiuwuzhidi/

想获取更多数据或定制爬虫的请点击python爬虫专业定制

版权声明：本文为qiuwuzhidi原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/qiuwuzhidi/p/14792578.html

python爬虫——链家二手房的更多相关文章

Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥，去B站看跳舞的小姐姐，忽然看到了评论，那就抓取一下B […]...
Python爬虫入门教程 14-100 All IT eBooks多线程爬取
写在前面对一个爬虫爱好者来说，或多或少都有这么一点点的收集癖 ~ 发现好的图片，发现好的书籍，发现各种能存放 […]...
《Python 3网络爬虫开发实战中文》超清PDF+源代码+书籍软件包
《Python 3网络爬虫开发实战中文》PDF+源代码+书籍软件包下载：链接：https://pan.ba […]...
Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面今天咱们抓取一下网易云课堂的课程数据，这个网站的数据量并不是很大，我们只需要使用requests就可 […]...
Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy
爬前叨叨第40篇博客吹响号角，爬取博客园博客~本文最终抓取到了从2010年1月1日到2019年1月7日的37 […]...
python模块之urllib.request基础使用
urllib模块 urllib模块简介： urllib提供了一系列用于操作URL的功能。包含urllib.re […]...
Python数据抓取_BeautifulSoup模块的使用
在数据抓取的过程中，我们往往都需要对数据进行处理本篇文章我们主要来介绍python的HTML和XML的分析库 […]...
python爬虫（爬取视频）
爬虫爬视频爬取步骤第一步：获取视频所在的网页第二步：F12中找到视频真正所在的链接第三步：获取链接并转 […]...

随机推荐

观点纠正，yarn和npm对比，今天yarn仍然比npm快吗
yarn和npm的区别和对比，网上很多了，不多说了。只纠正一个观点：yarn仍然比npm快吗？不。 […]...
Map Reduce和流处理
欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~ 本文由@从流域到海域翻译，发表于腾讯云+社区 ma […]...
Golang 入门 : 打造开发环境
工欲善其事，必先利其器！在学习和使用 Golang 时如果有一款得心应手的 IDE，相信一定可以事半功倍。虽然 […]...
winform文件筛选器
　　在.net 框架中，微软给我们封装了一个用于打开文件的对话框——OpenFileDialog。而该对话框包 […]...
10分钟学会Python函数基础知识
看完本文大概需要8分钟，看完后，仔细看下代码，认真回一下，函数基本知识就OK了。最好还是把代码敲一下。一、函 […]...
LightOJ – 1370 Bi-shoe and Phi-shoe 欧拉函数题解
LightOJ – 1370 Bi-shoe and Phi-shoe 欧拉函数题解题目： B […]...
19-05【icloud】照片备份
19-05【icloud】照片备份 icloud提供了免费的存储空间，5G，超过这个量需要单独购买空间；我用的 […]...
java 接口文件传输
调用接收端 @ApiOperation(value = "文件请求展示方法") @RequestMapping […]...

展开目录

目录导航