大数据处理框架apache spark设计与实现(全彩)pdf百度云下载地址
近年来,以apache spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以apache spark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的spark应用,以及相关的性能和可靠性问题。本书分9章,主要包含四部分内容。第一部分 大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的spark应用为例概述spark应用的执行流程。第二部分 spark大数据处理框架的核心理论(第3~4章):介绍spark框架将应用程序转化为逻辑处理流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分 典型的spark应用(第5章):介绍迭代型的spark机器学习应用和图计算应用。第四部分 大数据处理框架性能和可靠性保障机制(第6~9章):介绍spark框架的shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。
书籍作者简介:
许利杰 现任美区科学院软件研究所副研究员、硕士生导师,于中科院软件所获得博士学位。当前主要从事大数据系统方面的研究工作,已在国际权威会议如vldb、icdcs、ipdps、issre、icac等发表论文10余篇,主持多项国家自然科学基金,以及华为、京东、联想等企业的合作研发项目。 曾为apache spark和hadoop修复多个内核代码严重错误,编写的sparkinternals技术文档被社区广泛关注,获得四千多颗星。 博士期间曾在微软亚洲研究院、阿里巴巴、腾讯担任客座研究学生。目前还担任美区计算机学会系统软件专委会委员、美区科学院青年创新促进会会员。 方亚芬 现任美区科学院软件研究所工程师,于南开大学获得学士学位、中科院软件所获得硕士学位。 当前主要从事大数据系统、操作系统方面的研发工作,参与多项国家自然科学基金、国家重点研发计划,以及华为、腾讯... 许利杰 现任美区科学院软件研究所副研究员、硕士生导师,于中科院软件所获得博士学位。当前主要从事大数据系统方面的研究工作,已在国际权威会议如vldb、icdcs、ipdps、issre、icac等发表论文10余篇,主持多项国家自然科学基金,以及华为、京东、联想等企业的合作研发项目。 曾为apache spark和hadoop修复多个内核代码严重错误,编写的sparkinternals技术文档被社区广泛关注,获得四千多颗星。 博士期间曾在微软亚洲研究院、阿里巴巴、腾讯担任客座研究学生。目前还担任美区计算机学会系统软件专委会委员、美区科学院青年创新促进会会员。 方亚芬 现任美区科学院软件研究所工程师,于南开大学获得学士学位、中科院软件所获得硕士学位。 当前主要从事大数据系统、操作系统方面的研发工作,参与多项国家自然科学基金、国家重点研发计划,以及华为、腾讯、美区邮政等企业的合作研发项目。 曾在阿里巴巴等担任客座研究学生,目前是华为openeuler社区树莓派项目负责人。
pdf书籍目录:
第 1 章 大数据处理框架概览 .....................2
第 2 章 spark 系统部署与应用运行的基本流程 .....................................20
第 3 章 spark 逻辑处理流程 ...................41
第 4 章 spark 物理执行计划 .................101
第 5 章 迭代型 spark 应用 ....................123
第 6 章 shuffle 机制 ..............................153
第 7 章 数据缓存机制 ...........................180
第 8 章 错误容忍机制 ...........................199
第 9 章 内存管理机制 ...........................227