本次文章所用数据来自和鲸社区-《链家二手房数据集》,为网友从链家爬取的北京地区部分二手房交易数据。
房源数据包含北京地区涉及房屋的简介,户型,面积,关注人数,观看次数,发布时间,楼层等信息的23440条数据记录。
近年来房价一直是人们比较关注的话题,非常感谢网友提供的数据集,比较遗憾的是此数据集没有确切的收集时间和其他特征等信息的说明,本次分析也只能通过现有的数据来加以探索。
在此数据集的基础上用Excel做数据分析,分析步骤如下:
本次分析的目的是想通过对链家北京二手房成交数据进行分析,为以下问题提供解答:
哪个城区的二手房市场成交最活跃?
哪个城区的二手房房价最高?
哪种户型最热门?
哪个城区的房源最容易成交?
因为来源于中文数据网站,无需翻译处理,以下为11个字段分类:
1. 选择子集
保留和问题相关度比较高的字段,即户型、面积、房价、单价/平、城区、观看次数这几列,其他字段可以先进行隐藏
2. 列名重命名
因均为中文字段,且列名定义清晰,无需重命名
3. 删除重复值
因没有唯一标识号,直接用Excel的删除重复项功能去重
4. 缺失值处理
保留字段无缺失值,无需处理
5. 一致化处理
对面积、单价/平、观看次数等统一字段格式
6. 数据排序
根据城区、单价/平字段进行排序
7. 异常值处理
根据数据透视表,‘户型’一项中包含其他非户型值,本次仅分析平层二手房情况,故对异常值做删除处理
1. 哪个城区的二手房市场成交最活跃?
分析结果:北京二手房成交量区域差距明显,可按成交数量划分多个地区梯队,其中成交最活跃的第一梯队包含昌平、海淀、丰台、朝阳四个地区,成交量均达2500套以上。
2. 哪个城区的二手房房价最高?
分析结果:北京二手房成交单价均值是59558元/平,其中房价最高的是西城区,均价为103437元/平,突破10万元大关;而房价最低的是怀柔区,均价为24432元/平,但结合成交量判断,该数据还需进一步验证。
3. 哪种户型最热门?
分析结果:各户型占比中,2室1厅以38%的占比成为最热门的成交户型,考虑该户型对应的预估入住人数,综合判断,在北京的二手房交易市场中,1-3人的小家庭为主要购买客群。
4. 哪个城区的房源最容易成交?
分析结果:从带看次数可知每套房源成交前的客户带看次数,北京地区平均值是20次,即成交一套二手房,前面平均要带20次客户看房。从各城区看,其中门头沟带看次数最多,均值为33次,说明该地区的房源相对不易出售,反之如燕郊带看次数为10次,说明该地区的房源相对容易出售。
结论总结:
从以上分析结果可得,如在北京市买二手房,在昌平、海淀、丰台、朝阳这四个地区有相对更多的房源可供选择,同理,在户型选择上,市面上的主力户型是2室1厅,可选余地较大;结合房价考虑,燕郊、昌平、大兴等城区的房价相对较低且能有更多的房源选择;而作为房产中介人员,在其他客观条件接近的情况下,选择燕郊、大兴等地区的房源进行推广,相对会更加容易促成成交。
下一篇