大数据采集与处理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2.5 Flume

Flume是由Cloudera开发的,后在2009年被捐赠给Apache软件基金会,现已成为Apache Top项目之一[9]。Flume是一个高可用、高可靠、分布式海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理并写到各种数据接收方(可定制)的能力[10]。Flume基于数据流的简单灵活的架构。它具有可靠性机制、故障转移和恢复机制、强大的容错性。它使用可扩展数据模型,允许在线分析应用程序[11]。Flume适用于大部分日常数据采集场景。

Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)且携带头信息。这些事件由代理外部的资源生成,当资源捕获事件后会先进行特定的格式化,然后资源会把事件推入(单个或多个)通道中。可以把通道看成一个缓冲区,它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个资源。

Flume的特性如下。

1可靠性

当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供以下三种从强级别到弱级别的可靠性保障。

(1)end-to-end。收到数据后,代理首先将事件写到磁盘上,当数据传送成功后,再删除数据;如果数据发送失败,可以重新发送。

(2)store on failure。这也是备份采用的策略,当数据接收方崩溃时,将数据写到本地,待恢复后,继续发送。

(3)best effort。数据发送到接收方后,不会进行确认。

2可恢复性

推荐使用FileChannel,事件持久化在本地文件系统里(性能较差)。