15分钟,教你用Python爬网站数据,并用BI可视化分析!
|
将CSV文件数据导入FineBI中(新建数据链接,建立一个分析业务包,然后导入这张excel表)。因为薪水是以xxK-xxk(还有一些类似校招/薪资面议的数据)的形式进行存储的,我这边使用FineBI新增公式列(类似excel函数)将这些字符进行分割: 薪水下限(数值):left( indexofarray ( split (salary,"-") ,1),find( "K",INDEXOFARRAY( split(salary,"-") ,1))-1) 薪水上限(含K字符):right ( indexofarray( split(salary,"-") ,2),len(salary)- find("K",indexofarray(split(salary,"-"),2 ) ) ) 薪水上限(数值):left( 薪水上限(文本),find("K",薪水上限(文本))-1 ) 这样就得到每个岗位的数值格式的薪水区间了:
2.脏数据清洗: 浏览了一下数据,没有大问题,但是发现里面有一些类似BIM工程师的岗位信息,这些应该都是土木行业的工程师,这边我直接过滤掉即可(不包含“BIM”且不包含“bim”)。
3.岗位平均数据计算 再新增列,平均薪水=(薪水下限+薪水上限)/2,即可得到每个岗位的平均薪水。
4.真实城市截取 由于城市字段存储有的数据为“城市-区域”格式,例如“上海-徐汇区”,为了方便分析每个城市的数据,最后新增列“城市”,截取“-”前面的真实城市数据。 城市:if(find("-",city)>0 , left(city, find("-",city)-1 ),city)
至此,18000多条数据差不多清洗完毕,食材已经全部准备好,下面可以正式开始数据可视化的美食下锅烹饪。 三、数据可视化数据可视化可以说是很简单了,拖拽要分析的数据字段即可。 但是这里用finebi分析要理解一个思路。常规我们用excel做分析或者说做图表,是先选用钻则图表然后设定系列、数值。这里没有系列和数值的概念,只有横轴和竖轴。拖入什么字段,该字段就以该轴进行扩展,至于图表嘛,finebi会自动判别推荐。 我这边以各城市平均薪水/岗位数量分析为例给大家简单展示FineBI的可视化呈现过程。 1、横轴以“城市”字段扩展,展现两类数据。先是薪水值,拖拽到纵轴,默认对数值类的字段是汇总求和的。点击字段可直接对改字段修改计算、过滤等操作。
此图来自官网,图中数据不是本次分析的数据,仅供参考 (编辑:PHP编程网 - 金华站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



