第1版前言
本书内容
本书分为三篇,共12章。
(1)第一篇 大数据的基本概念和技术
第1章 绪论,描述大数据的时代背景,探讨大数据的概念和特性,重点阐述大数据系统的技术支撑体系,包括数据采集、存储、分布式计算和应用,并讨论大数据人才特点与能力要求。
第2章 Hadoop大数据关键技术,详细介绍大数据系统涉及的主流技术,主要包括大数据采集与生成、分布式存储、分布式计算框架、数据分析与挖掘等方面的技术和工具。
(2)第二篇 Hadoop大数据平台搭建与基本应用
第3章 Linux操作系统与集群搭建,介绍Linux操作系统的安装、Java开发包(JDK)的安装,以及集群的配置方法。
第4章 HDFS安装与基本应用,介绍HDFS的架构、工作原理,以及Hadoop安装、配置、启动和程序的运行。
第5章 MapReduce与Yarn,介绍MapReduce的工作原理,描述MapReduce v2(Yarn)的架构和执行流程,重点介绍如何设计MapReduce程序,给出了在Eclipse中实现Java语言MapReduce程序的具体过程。
第6章 Hive和HBase的安装与应用,主要介绍Hive和HBase的安装配置和应用方法,同时也介绍MySQL和ZooKeeper的安装与应用。
第7章 Sqoop和Kafka的安装与应用,介绍Sqoop和Kafka组件的安装及其基本应用方法。
第8章 Spark集群的安装与开发环境的配置,介绍Spark架构及其工作原理,详细介绍Spark开发环境的安装与配置,包括热门的IntelliJ IDEA集成开发环境的安装与基本应用。
第9章 Spark应用基础,介绍Spark程序的运行模式和应用设计方法,通过编写计算圆周率Pi、基于随机森林模型的贷款风险预测Scala程序,展示了在集成开发环境IDEA中编写Spark程序的流程。
(3)第三篇 大数据处理与项目开发
第10章 交互式数据处理,介绍如何利用Hive进行大数据的处理和分析。Hive是建立在Hadoop和MapReduce基础上的数据仓库工具,借助于SQL语句,用户可完成很多处理和分析,对实际工作有很大的帮助。
第11章 协同过滤推荐系统,介绍推荐算法的基本概念和应用,展示基于Spark机器学习库MLlib实现的协同推荐应用。
第12章 销售数据分析系统,通过一个完整的销售数据分析系统设计,展示如何利用Hadoop的各种组件开发实际的大数据应用系统。本章用到的组件包括HDFS、MySQL、Eclipse、Phoenix、HBase、WebCollector、Servlet、Tomcat等,所展示的数据和应用均来自真实场景,对读者有较高参考价值。
本书特点
本书把原理、架构、运行流程分析与实际应用融合起来介绍,融合性地阐述框架优于单纯的原理分析,因为原理最终要付诸于应用。
本书高度重视实践能力的培养,对系统安装、配置和应用过程给出了十分详细的描述,所有实验都是基于实际完成的操作来进行介绍的,并配有截图,为读者展示了真实、详尽、可重现的场景,十分方便读者自学和钻研。
与很多大数据技术书籍不同,本书突出了数据处理本身,深入介绍了如何运用技术进行实际的数据分析,所采用的数据样本来自生产一线,所展示的项目具有实用的参考价值,读者掌握这些技术之后,就可以开始进行项目开发了。
本书的读者群
本书十分适合初学者入门和进阶。
本书也可供那些已经学习过Hadoop组件技术,但希望全面、系统地理解并掌握实际应用的读者参考。
本书对从事大数据项目开发的专业人员也有参考价值,书中所描述的在Hadoop组件应用中遇到的各种问题及其解决办法十分实用。
本书特别适合自学,读者完全可以利用本书给出的资源和示例,一步一步地完成各项操作和应用,体验一种登堂入室的成就感。
致谢
感谢大数据时代,感谢开源社区,感谢Apache基金会,感谢Google,感谢所有关心和热爱大数据的人们!
作者在创作本书时借鉴了中科普开(北京)科技公司的部分培训资源,在此表示衷心的感谢。特别感谢中南大学郑瑾副教授,本书的部分内容参考了她编撰的书稿。由衷地感谢王建新教授、李建彬教授、张祖平教授,他们耐心地审阅了本书,提出了很多中肯的意见和建议。非常感谢电子工业出版社田宏峰编辑,他细心专业的工作方式,给作者留下深刻印象,并为本书的高质量出版提供了保障。
由于作者水平有限,本书的错误和疏漏在所难免,恳请广大读者提出宝贵意见和建议,作者的电子邮箱是djhuang@csu.edu.cn。
作者
2017年6月于长沙