更新时间:2019-12-06 16:38:46
封面
书名页
版权信息
内容简介
作者简介
前言
第一部分 入门篇
第1章 初识Spark SQL
1.1 Spark SQL的前世今生
1.2 Spark SQL能做什么
第2章 Spark安装、编程环境搭建以及打包提交
2.1 Spark的简易安装
2.2 准备编写Spark应用程序的IDEA环境
2.3 将编写好的Spark应用程序打包成jar提交到Spark上
第二部分 基础篇
第3章 Spark上的RDD编程
3.1 RDD基础
3.2 RDD简单实例—wordcount
3.3 创建RDD
3.4 RDD操作
3.5 向Spark传递函数
3.6 常见的转化操作和行动操作
3.7 深入理解RDD
3.8 RDD缓存、持久化
3.9 RDD checkpoint容错机制
第4章 Spark SQL编程入门
4.1 Spark SQL概述
4.2 Spark SQL编程入门示例
第5章 Spark SQL的DataFrame操作大全
5.1 由JSON文件生成所需的DataFrame对象
5.2 DataFrame上的行动操作
5.3 DataFrame上的转化操作
第6章 Spark SQL支持的多种数据源
6.1 概述
6.2 典型结构化数据源
第三部分 实践篇
第7章 Spark SQL工程实战之基于WiFi探针的商业大数据分析技术
7.1 功能需求
7.2 系统架构
7.3 功能设计
7.4 数据库结构
7.5 本章小结
第8章 第一个Spark SQL应用程序
8.1 完全分布式环境搭建
8.2 数据清洗
8.3 数据处理流程
8.4 Spark程序远程调试
8.5 Spark的Web界面
8.6 本章小结
第四部分 优化篇
第9章 让Spark程序再快一点
9.1 Spark执行流程
9.2 Spark内存简介
9.3 Spark的一些概念
9.4 Spark编程四大守则
9.5 Spark调优七式
9.6 解决数据倾斜问题
9.7 Spark执行引擎Tungsten简介
9.8 Spark SQL解析引擎Catalyst简介
9.9 本章小结