如虎添翼:数据处理的SPSS和SAS EG实现(第2版)

当前位置:首页 > 计算机/网络 > 数据库 > 如虎添翼:数据处理的SPSS和SAS EG实现(第2版)

  • 版 次:2
  • 页 数:
  • 字 数:
  • 印刷时间:2016年05月01日
  • 开 本:16开
  • 纸 张:胶版纸
  • 包 装:平装-胶订
  • 是否套装:否
  • 国际标准书号ISBN:9787121285325
  • 丛书名:CDA数据分析师系列丛书
作者:经管之家 主编出版社:电子工业出版社出版时间:2016年05月 
编辑推荐
“CDA数据分析师系列丛书”依照数据分析师规范化学习体系而定。满足了CDA数据分析师等级认证学习的需要,也兼顾了大数据的热点动态。从策划之初一直坚持以“读者需求”为主线,结合企业实际案例和业务场景来谈大数据思维和小数据分析。实现技术扎实,业务精通,策略接地气! 
内容简介
《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》作为SAS EG 和SPSS 数据处理比较的首本实战中文教材,本书并非单纯地逐个讲解菜单的操作,而是将数据分析的基本思路、流程融入到软件的操作之中。每章通过设置商业背景,配以SAS EG 和SPSS 的实战演练,讲解形式更贴近读者的实际工作,使读者真正理解数据分析、数据处理的精髓。本书除讲解软件操作,还同时介绍了对应菜单操作的SAS 程序语言实现过程,读者可以根据自己的需要逐步学习,进而走进用SAS 程序处理数据的大门。
作者简介
经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内*的经济、管理、金融、统计类的在线教育和咨询网站,也是国内最活跃和*影响力的经管类网络社区。经管之家从2006年起在国内最早开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供*质、最科学、最系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。
徐筱刚,统计学硕士。拥有近十年的丰富的数据分析、数据挖掘实战经验,曾就职于咨询公司、金融机构等多家著名企业,目前在一家金融机构担任资深数据分析顾问,具有零售、电信、金融等多个数据挖掘的项目经验和行业背景。
目  录
第1 章 软件入门介绍 .. 1
1.1 SAS EG 介绍 .. 2
1.1.1 SAS EG 简介 . 2
1.1.2 SAS EG 的窗口及菜单 . 3
1.2 SPSS 介绍 . 4
1.2.1 SPSS 简介 .. 4
1.2.2 SPSS 窗口及菜单 5
1.3 数据挖掘的流程介绍 . 9
1.3.1 KDD 介绍 9
1.3.2 CRISP-DM .. 10
1.3.3 SEMMA . 11
1.3.4 三种数据挖掘流程的比较 .. 11
1.4 课后练习 . 11
第2 章 使用数据 .. 12
前  言
序言
这是一个用数据说话的时代 在CDA(注册数据分析师)Level I 级教材付诸印刷之际,关于数据分析这个职业及其价值的报道就有很多,比如,下面两条报道就充分体现了在大数据时代下,数据分析的价值。这在以前是从来没有过的。
LinkedIn 的最新投票结果显示,“统计分析和数据挖掘” 是2014 年最大的求职法宝。LinkedIn对全球超过3.3 亿用户的工作经历和技能进行分析,公布2014 年最受雇主喜欢、最炙手可热的25项技能,其中位列榜首的是统计分析和数据挖掘。
麦肯锡公司的一份研究预测称,到2018 年,在“具有深入分析能力的人才”方面,美国可能面临着14 万到19 万人的缺口,而“可以利用大数据分析来做出有效决策的经理和分析师”缺口则会达到150 万人。
在线试读部分章节
需要清理的数据类型缺失值(Missing)
〈1〉缺失值的来源在数据收集阶段,没有收集到相关的信息,原因可能是问卷收集者忘记询问,或者碍于隐私原因,应答者没有回答。也有可能不同数据库之间对接时产生缺失。
〈2〉缺失值的处理方式?忽略观测值,当数据量较大,而缺失值较少,忽略观测值对分析结果影响不大时,可以采用这种方式;人工填写,找到缺失值的关系,通过人工调查得到并填写缺失值,当缺失值量比较大时不适用;使用一个全局常量来填写缺失值;使用属性的中心度量(如均值和中位数)来填充缺失值;单独作为一类。
〈3〉缺失值在SAS 中的表现方式?数值型的为“.”;?字符型的缺失值为空。
异常值
〈1〉异常值(Outlier)异常值也称为离群值、极端值(Extreme)。明显偏大或偏小的值,异常值不一定为错误值。
〈2〉识别异常值的常用方法有三种:第一种方法是为每个变量设定一个正常的取值范围,然后可以用简单的探索性统计分析进行识别。例如,连续变量,借助经验法则2可以设定为±3 个标准差,对于类别变量或者顺序变量,如果某一列别的频数超过1%或者更多被认为是正常。本方法的优点是简单快捷,缺点是只考虑了单个变量,没有考虑变量之间的相互影响。第二种方法建立在生成数据的过程中是否具有特定函数形式的模型,如假定服从线性模型,则利用线性模型拟合后,严重偏离模型的即为异常值。本方法的优点是考虑了变量之间的相互作用,缺点是需要有一个事先的假设,若假设错误,则有可能误判正常的点为异常值。第三种方法是用聚类算法将数据分为较小的子集,即簇或者群,只包含较小数量的观测值的群,被认定为极端值。聚类算法根据统计距离指标将相似的观测值分布在同一个簇。这个方法结合了以上两个方法的优点,但是在数据量较大的情况下,聚类对系统的资源要求比较大。
〈3〉箱线图(Box Plot)箱线图是对数据分布的一种常用表示方法。在一张图上可以表示多种类型的统计量,通过图形的形状,可以了解数据的分布,异常值、极端值的情况等.
书摘插画
插图

 如虎添翼:数据处理的SPSS和SAS EG实现(第2版)下载



发布书评

 
 

 

PDF图书网 

PDF图书网 @ 2017