深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台
上QQ阅读APP看书,第一时间看更新

2.3.2 百度EasyDL

1.简介

不同于传统意义上的AutoML,EasyDL是一个专门针对深度学习模型训练与发布的平台。在EasyDL之前,百度就已经有了深度学习计算引擎PaddlePaddle。PaddlePaddle是一个类似于谷歌TensorFlow的专业级计算平台,目标群体是有一定计算机与算法基础的专业AI算法工程师。

除此之外,百度还有百度AI开放平台,用户可以通过平台提供的API付费调用百度的AI算法能力实现自己的需求。但是AI开放平台的算法模型很多时候难以覆盖全部的场景,因此对于很多企业而言,还存在着大量等待被满足的定制化需求。

EasyDL平台的出现是为了解决AI赋能行业的这个痛点,以一种便捷高效的方式满足这些定制化深度学习模型需求以及伴随而来的其他需求。用户上传自己的数据,在平台上进行数据标注、加工、训练、部署和服务,最终得到云端独立的REST API或一个离线SDK,从而方便地将模型部署到自己的业务场景中。

目前该平台提供图像识别、文本分类、声音分类等服务分类(见图2-9)。图像识别领域支持图像分类以及物体检测,文本分类领域支持广泛的文本分类,而声音分类领域提供音频定制化识别服务。

图2-9 EasyDL的3个主要服务领域

目前EasyDL的各项定制能力在业内得到广泛应用,用户累计过万,在零售、安防、互联网内容审核、工业质检等数十个行业都有应用落地,并提升了这些行业的智能化水平和生产效率。

2.使用方式

由于目标群体主要为没有相关专业知识但又想要利用AI进行行业赋能的外行使用者,EasyDL提供了一个流水线式的可视化界面(见图2-10)。其功能分为数据中心与模型中心:数据中心负责数据集的管理与标注,模型中心负责训练与部署。

使用者基本上无需机器学习的专业知识,只需要对过程有简单的了解,跟随界面的流程执行模型创建—数据上传—模型训练—模型发布等流程,中间的过程平台会通过迁移学习、自动化建模技术等方式完成。

3.自动化建模技术

在自动化建模上,EasyDL平台有两种不同的方法:一种是基于迁移学习的Auto Model Search,另一种是基于神经架构搜索的模型自动生成方法。

图2-10 EasyDL的可视化界面

基于迁移学习的Auto Model Search方法是针对用户数据集的类型,在适用于该类型数据集的过去被证明优秀的预训练模型中进行搜索,如Inception、ResNet、DenseNet等,并结合不同的超参数组合进行训练与选择;每一个模型都会结合其配置的超参组合进行训练,这个过程可以通过百度的workflow等高性能底层计算平台进行并行加速。

对于某些对性能需求更高的用户而言,上述方式不一定能够把模型性能推到极致;因此还需要基于神经架构搜索NASNet的方法,该方法能够针对用户的数据集从零开始生成一个最适配的模型,从而确保性能可以达到最优,但是相对的计算成本也会更高;在本书的后续章节会对NASNet等神经架构搜索方法进行讲解。

这些过程都是在底层自动完成的,用户完全不需要操心中间的细节问题。