轻松学大数据挖掘:算法、场景与数据产品
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.5.1 关于Python

上述内容主要是想让大家能够在一个干净清爽的交互页面来亲自写Python代码。当然,也可以直接使用cmd→Python/IPython来运行,也可以通过一些IDE集成环境来开发。

笔者比较倾向于使用IPython Notebook来直接操作,所以对于这篇文章而言,主要是教会大家安装Python环境,学会使用pip install程序快捷安装依赖包,以及有一个自己喜欢的编译环境去写代码,查看运行结果和图表。大家一定要有动手能力,后面还会有很多类似的环境需要部署,多动手操作才能更顺利地学习相关的知识。

本节主要概括了Python中常用的语法、数据类型、函数式编程、数据操作和基本概念等。目的是让大家能够快速领会用Python做数据分析和挖掘工作时,常用到的知识点。而且涉及函数式编程的思想,在Scala中也会有所体现。

为什么这样说呢?因为知识点很多,但是对于用Python做数据挖掘而言,主要就那几个方面的内容。而且要想更理解语法操作,唯有多用、多温习,而不是总是看概念性的知识。利用Python可以从数据源来获取结构化的数据,结合DataFrame做一些数据分析相关的工作,以及数据清洗。还可以直接将分析的结果和图表直接存储为Excel文件或CSV文件,通过邮件直接发送给业务运营人员,完成数据需求上的支撑。对于DataFrame的使用,在Spark中也会有所体现。

总体来说,考虑到用Python做数据分析的一些思想和大数据框架技术里的某些思想有不谋而合之处,所以特意推荐大家可以先从学习Python入门。不过也别花太多时间,学习一门技术,虽然很迫切学得很深,很扎实,但是的确急不得,学习Python能够对数据分析和编程思想有一定入门、理解和动手能力就可以了。