spark核心技术与高级应用中文版百度网盘电子版百度云下载
本书共分为四大部分:
基础篇(1~10章)介绍了spark的用途、扩展、安装、运行模式、程序开发、编程模型、工作原理,以及sparksql、sparkstreaming、mllib、graphx、bagel等重要的扩展;
实战篇(11~14)讲解了搜索结果的排序、个性化推荐系统、日志分析系统、自然语言处理、数据挖掘等方面的案例;
高级篇(15~18)则讲解了spark的调度管理、存储管理、监控管理、性能优化、最佳实践以及重点算法的解读;
扩展篇(19~20)讲解了sparkjob-server和tachyon。
书籍作者简介:
于俊,科大讯飞大数据专家,专注大数据hadoop和spark平台;主要工作是大数据统计分析和机器学习算法工程实现。 向海,科大讯飞大数据专家,spark爱好者,专注于大数据领域,现从事基于spark的用户行为分析相关工作。 代其锋,百分点科技大数据架构师,专注于分布式系统架构;主要工作是负责公司底层基础平台的建设和spark技术的推广。 马海平,科大讯飞大数据高级研究员,专注于用机器学习做大数据商业变现;主要工作是数据挖掘算法研究和spam实现。
pdf书籍目录:
第1章spark简介2
第2章spark部署和运行11
第3章spark程序开发27
第4章编程模型44
第5章作业执行解析59
第6章sparksql与dataframe73
第7章深入了解sparkstreaming97
第8章sparkmllib与机器学习116
第9章graphx图计算框架与应用148
第10章sparkr(ronspark)167
第11章大数据分析系统188
第12章系统资源分析平台200
第13章在spark上训练lr模型215
第14章获取二级邻居关系图225
第15章调度管理238
第16章存储管理254
第17章监控管理264
第18章性能调优273
第19章spark—jobserver实践282
第20章sparktachyon实战292