Flume：构建高可用、可扩展的海量日志采集系统pdf/txt下载_在线阅读全文

编辑推荐

　　如何能将前端服务器上获得的数据近似实时放到Hadoop中去？有了这本完整的参考指南，你将学习Flume丰富的功能集合：收集、汇聚和写大量流数据到Hadoop分布式文件系统（HDFS）、Apache HBase、SolrCloud、ElasticSearch以及其他系统。
　　本书指导运维工程师如何配置、部署和监控Flume群集，并指导开发人员如何编写Flume插件和特殊使用情况的自定义组件。你将了解Flume的设计和实现，以及使其具备高度可扩展、灵活和可靠等特性的各种功能。
　　■ 了解Flume如何通过数据生产者和消费者之间的缓冲区为流提供稳定的速率。
　　■ 深入Flume的关键组件，包括接收数据的Source和写入、转发数据的Sink。
　　■ 编写自定义插件来定制Flume接收、修改、格式化和写入数据的方式。
　　■ 探索从自己的应用程序发送数据到Flume Agent的API。
　　■ 以一种可扩展的、灵活的方式规划和部署Flume——一旦集群运行则监控集群。

内容简介

　　本书从Flume 的基本概念和设计原理开始讲解，分别介绍了不同种类的组件、如何配置
　　组件、如何运行Flume Agent 等。同时，分别讨论Source、Channel 和Sink 三种核心组件，不仅仅阐述每个组件的基本概念，而且结合实际的编程案例，深入、全面地介绍每个组件的详细用法，并且这部分内容也是整个Flume 框架的重中之重。之后，讲解拦截器、Channel选择器、Sink 组和Sink 处理器等内容，它们为Flume 提供灵活的扩展支持。最后，介绍了Flume 的高级使用，如何使用Flume 软件开发工具集（SDK）和Embedded Agent API，如何设计、部署和监控Flume 生产集群。
　　总而言之，本书是一本理论结合实战，深度、广度兼备的海量日志采集系统的著作。

作者简介

　　Hari Shreedharan是Cloudera的一名软件工程师，他工作于Apache Spark、Apache Flume和Apache Sqoop。他也是Flume项目的一个提交者和PMC成员，帮助项目的方向做决定。

目　　录

译者序
序
前言
第1章认识Apache Hadoop和Apache HBase
分布式文件系统HDFS
HDFS 的数据格式
处理HDFS 中的数据
Apache HBase
总结
参考文献
第2章用Apache Flume 处理流数据
我们需要Flume
Flume 是否适合呢？
Flume Agent 内部原理

译者序  
序  
前言   
第1章 认识Apache Hadoop和Apache HBase   
分布式文件系统HDFS  
HDFS 的数据格式  
处理HDFS 中的数据  
Apache HBase  
总结  
参考文献  
第2章 用Apache Flume 处理流数据   
我们需要Flume   
Flume 是否适合呢？  
Flume Agent 内部原理  
配置Flume Agent  
Flume Agent 之间的相互通信  
复杂的流  
复制数据到不同目的地  
动态路由  
Flume 的无数据丢失保证，Channel 和事务  
Flume Channel 中的事务  
Agent 失败和数据丢失  
批量的重要性  
重复怎么样？  
运行Flume Agent  
总结  
参考文献  
第3章 源（Source）   
Source 的生命周期  
Sink-to-Source 通信  
Avro Source  
Thrift Source  
RPC Sources 的失败处理  
HTTP Source  
针对HTTP Source 写处理程序*  
Spooling Directory Source  
使用Deserializers 读取自定义格式*  
Spooling Directory Source 性能 
Syslog Source  
Exec Source  
JMS Source  
转换JMS 消息为Flume 事件*  
编写自定义Source*  
Event-Driven Source 和Pollable Source  
总结  
参考文献  
第4章 Channel   
事务工作流  
Flume 自带的Channel  
Memory Channel  
File Channel  
总结  
参考文献  
第5章 Sink   
Sink 的生命周期  
优化Sink 的性能  
写入到HDFS

显示全部信息

前　　言

　　O’Reilly Media, Inc.介绍
　　O’Reilly Media 通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978 年开始，O’Reilly 一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来，而我们关注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者，O’Reilly 的发展充满了对创新的倡导、创造和发扬光大。
　　O’Reilly 为软件开发人员带来革命性的“动物书”；创建第一个商业网站（GNN）；组织了影响深远的开放源代码峰会，以至于开源软件运动以此命名；创立了Make 杂志，从而成为DIY 革命的主要先锋；公司一如既往地通过多种形式缔结信息与人的纽带。O’Reilly 的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖，共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择，O’Reilly 现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版、在线服务或者面授课程，每一项O＇Reilly的产品都反映了公司不可动摇的理念——信息是激发创新的力量。
　　业界评论

O’Reilly Media, Inc.介绍 
　　O’Reilly Media 通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978 年开始，O’Reilly 一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来，而我们关注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者，O’Reilly 的发展充满了对创新的倡导、创造和发扬光大。 
　　O’Reilly 为软件开发人员带来革命性的“动物书”；创建第一个商业网站（GNN）；组织了影响深远的开放源代码峰会，以至于开源软件运动以此命名；创立了Make 杂志，从而成为DIY 革命的主要先锋；公司一如既往地通过多种形式缔结信息与人的纽带。O’Reilly 的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖，共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择，O’Reilly 现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版、在线服务或者面授课程，每一项O＇Reilly的产品都反映了公司不可动摇的理念——信息是激发创新的力量。 
　　业界评论 
　　“O’Reilly Radar 博客有口皆碑。” 
　　——Wired 
　　“O’Reilly 凭借一系列（真希望当初我也想到了）非凡想法建立了数百万美元的业务。” 
　　——Business 2.0 
　　“O’Reilly Conference 是聚集关键思想领袖的绝对典范。” 
　　——CRN 
　　“一本O’Reilly 的书就代表一个有用、有前途、需要学习的主题。” 
　　——Irish Times 
　　“Tim 是位特立独行的商人，他不光放眼于最长远、最广阔的视野并且切实地按照Yogi Berra 的建议去做了：‘如果你在路上遇到岔路口，走小路（岔路）。’回顾过去Tim 似乎每一次都选择了小路，而且有几次都是一闪即逝的机会，尽管大路也不错。” 
　　——Linux Journal 
　　译者序 
　　几乎任何规模的公司，每时每刻都在产生大量的数据，收集业务日志数据，供离线和在线的分析系统使用。处理这些日志需要特定的日志系统，一般而言，这些系统需要具有高可用性、高可靠性和可扩展性。 
　　Flume 是一个分布式、可靠的和高可用的海量日志采集、聚合和传输的系统。支持在系统中定制各类数据发送方，用于收集数据；同时，Flume 提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于Cloudera。但随着 Flume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志传输不稳定的现象尤为严重。为了解决这些问题，2011 年10 月22 日，Cloudera 完成了Flume-728，对Flume 进行了里程碑式的改动：重构核心组件、核心配置以及代码架构，重构后的版本统称为Flume NG（next generation）；改动的另一原因是将Flume 纳入Apache 旗下，Cloudera Flume 改名为Apache Flume。 
　　本书针对具有Java 编程语言基础的开发者，需要已经熟悉普通Java 开发实践。如果掌握了Java 语言基础，那么对于理解Flume 原理和开发Flume 将更加得心应手。如果打算学习使用Flume 收集分布式的海量日志，那么本书正好适合你。 
　　Flume 以Agent 为最小的独立运行单位。一个Agent 就是一个JVM。单Agent 由Source、Sink 和Channel 三大组件构成。本书从Flume 的三大核心组件通过配置实例和原理进行讲解，因此学习了本书后，你将能够直接使用Flume 进行各种类型日志的收集并保存到Hadoop 集群或者HBase 集群。 
　　y 认识Apache Hadoop和Apache HBase。本章简单介绍了HDFS和HBase的基本概念。 
　　y 用Apache Flume 处理流数据。本章介绍为什么需要一个类似 Flume 的系统、它的设计和实现，以及使得 Flume 高扩展、灵活和可靠的不同特征。 
　　y 源（Source）。本章我们将讨论Flume 中自带的多种 Source 的设计和工作原理，以及如何才能最优化配置；我们也将介绍如何去编写自定义的 Source。 
　　y Channel。Channel 是位于Source 和Sink 之间的缓冲区，保存通过 Source 传入到Flume Agent 的数据，直到它被Sink 移除。 
　　y Sink。本章我们将讨论不同种类的Sink，它们的配置和管理，如何针对每个Sink 序列化数据以使得数据可以写为用户选择的一种格式，以及如何编写自定义Sink。 
　　y 拦截器、Channel 选择器、Sink 组和Sink 处理器。Flume Agent 最重要的组件是Source、Channel 和Sink。另外，Flume Agent 还有一些使 Flume 更加灵活的组件。本章将讨论拦截器、Channel 选择器、Sink 组和Sink 处理器。 
　　y 发送数据到Flume。本章我们将讨论数据从客户端应用程序发送到一个或多个Flume Agent 的不同方法。Flume 有两类发送数据到 Flume Agent 的程序性方法 ：Flume SDK 和Embedded Agent API。Flume 也自带有log4j appender，可以用来从应用程序发送数据到Flume Agent。 
　　y 规划、部署和监控Flume。在这一章，我们将讨论如何规划去部署Flume，以及如何部署和监控Flume Agent。我们还将讨论Flume 项目本身之外的各种可用工具，这些工具会使Flume 的部署和监控更加简易。 
　　由于本书涉及的许多术语目前尚无固定译法，我们在翻译过程中力求选择一个简洁达意的译法，但限于自身水平有限，必定仍会有诸多不足，我们真诚地希望同行和读者们不吝赐教，我们将不胜感激。 
　　——史东杰 
　　序 
　　过去的几年中，大数据技术的发展和应用有了巨大的增长。 Hadoop 和相关平台推动着基于不断增长的巨大数据量的下一波数据分析浪潮。今天产生的数据将用来预测明天发生的事情，伴随着数字革命以不断加快的速度席卷我们生活的所有方面。要跨过这个海量数据新时代的门槛，明显需要注意的一点是 ：开始处理如何获取所有的数据到你的集群中的数据。显然，这些数据产生的来源，广泛蔓延到整个企业，并且与机器、传感器和社会数据等产生了有趣的互动效应。任何处理类似挑战的操作员毫无疑问会同意，这点是很重要的——如果不是很困难，要建立一个系统，以符合成本效益的方式路由数据到你的集群。 
　　Apache Flume 正是用来应对这个挑战的。 
　　早在 2011 年，当 Flume 进入 Apache 软件基金会孵化状态时，它就是 Cloudera 工程师用来在 Hadoop 上解决大规模日志数据聚合的一个项目。作为一开始就受欢迎的项目，它看到了大量的新需求，从事件排序到语义的可靠传递，并在其初始发行版就提出来了。鉴于它的受欢迎程度和人们对复杂要求的高需求，我们决定重构整个项目，让它在适用性和可管理性方面更简单、更强大，并在必要时允许简易扩展。在这个孵化器项目中，Hari 和我，连同其他几个工程师，都是昼夜不停地工作，与 Flume 社区共同推动这个愿景，使其早日实现。从那时到现在， Flume 已经成型并将自己推入** Apache 项目，推出了多次稳定版本，从而大大丰富了其功能。 
　　如今， Flume 在世界各地的大量数据中心被积极部署和使用，有时跨度超越洲际。它继续有效地提供高弹性、容错、可靠、快速和高效的机制，将大量数据从各种各样的数据源移动到目的地系统，如 HBase、 HDFS 等。一个精心设计的 Flume 拓扑，可以在最少或没有干预的前提下运转，实际上它能无限期地自运行。它提供了上下文的路由，当连接恢复时，通过提供可靠存储和重新发送消息的能力，能够处理宕机、网络中断等不可预知或计划外的中断。这些都是现成可用的，且通过使用已广泛采用的相当稳定和直观的接口，提供了自定义任何组件的灵活性。 
　　在本书中， Hari 概述了 Flume 的各种组件，并在必要时深入细节。操作员将会发现，这本书对于如何轻松设置和部署 Flume 管道的理解是非常有价值的。开发人员将找到一个方便的参考，以在 Flume 内构建或自定义组件，并更好地理解其架构和组件的设计。最重要的是，这本书在你设置连续 HDFS 和 HBase 的输入时，会给出必要的见解——HDFS 和 HBase 是如今最受欢迎的两个存储系统。 
　　通过部署 Flume，可以确保数据——无论数据来自什么企业，或是多大量级——都将安全、及时地到达你的大数据平台。然后你就可以将精力集中在如何洞悉数据上。祝大家好运！ 
　　——Arvind Prabhakar, CTO, StreamSets 
　　前言 
　　如今，开发人员能够很容易编写和在“云”中大量服务器上部署应用程序。这些应用程序比以往产生更多的数据，对其存储和分析能提供有价值的见解，可以改善应用程序本身和将应用程序作为自身一部分的企业。这类应用程序生成的数据通常使用 Hadoop 和HBase 等系统来分析。 
　　只有当你可以从前端服务器获取数据到上述这些系统，分析这些数据才是可能的。通常，随着数据产生的时间变长，这种分析的有效性就变得不那么靠得住了。要想近乎实时地获取数据到，就会用到诸如 Apache Flume 这样的系统。 Apache Flume 是一个系统，用于从大量数据生产商那里移动大量级数据

显示全部信息

媒体评论

　　“运维人员将会发现这本书，对于如何轻松设置和部署Flume管道的理解是非常有价值的。开发人员将找到一个方便的参考，以在Flume内部构建或自定义组件，并更好地理解其架构和组件的设计。最重要的是，这本书将给你为HDFS和HBase建立持续的输入提供必要的见解。”
　　——Arvind Prabhakar,StreamSets CTO

在线试读部分章节

　　过去的几年中，大数据技术的发展和应用有了巨大的增长。Hadoop 和相关平台推动着基于不断增长的巨大数据量的下一波数据分析浪潮。今天产生的数据将用来预测明天发生的事情，伴随着数字革命以不断加快的速度席卷我们生活的所有方面。要跨过这个海量数据新时代的门槛，明显需要注意的一点是：开始处理如何获取所有的数据到你的集群中的数据。显然，这些数据产生的来源，广泛蔓延到整个企业，并且与机器、传感器和社会数据等产生了有趣的互动效应。任何处理类似挑战的操作员毫无疑问会同意，这点是很重要的——如果不是很困难，要建立一个系统，以符合成本效益的方式路由数据到你的集群。
　　Apache Flume 正是用来应对这个挑战的。
　　早在2011 年，当Flume 进入Apache 软件基金会孵化状态时，它就是Cloudera 工程师用来在Hadoop 上解决大规模日志数据聚合的一个项目。作为一开始就受欢迎的项目，它看到了大量的新需求，从事件排序到语义的可靠传递，并在其初始发行版就提出来了。鉴于它的受欢迎程度和人们对复杂要求的高需求，我们决定重构整个项目，让它在适用性和可管理性方面更简单、更强大，并在必要时允许简易扩展。在这个孵化器项目中，Hari 和我，连同其他几个工程师，都是昼夜不停地工作，与Flume 社区共同推动这个愿景，使其早日实现。从那时到现在，Flume 已经成型并将自己推入**Apache 项目，推出了多次稳定版本，从而大大丰富了其功能。
　　如今，Flume 在世界各地的大量数据中心被积极部署和使用，有时跨度超越洲际。它继续有效地提供高弹性、容错、可靠、快速和高效的机制，将大量数据从各种各样的数据源移动到目的地系统，如HBase、HDFS 等。一个精心设计的Flume 拓扑，可以在最少或没有干预的前提下运转，实际上它能无限期地自运行。它提供了上下文的路由，当连接恢复时，通过提供可靠存储和重新发送消息的能力，能够处理宕机、网络中断等不可预知或计划外的中断。这些都是现成可用的，且通过使用已广泛采用的相当稳定和直观的接口，提供了自定义任何组件的灵活性。
　　在本书中，Hari 概述了Flume 的各种组件，并在必要时深入细节。操作员将会发现，这本书对于如何轻松设置和部署Flume 管道的理解是非常有价值的。开发人员将找到一个方便的参考，以在Flume 内构建或自定义组件，并更好地理解其架构和组件的设计。
　　最重要的是，这本书在你设置连续HDFS 和HBase 的输入时，会给出必要的见解——HDFS 和HBase 是如今最受欢迎的两个存储系统。
　　通过部署Flume，可以确保数据——无论数据来自什么企业，或是多大量级——都将安全、及时地到达你的大数据平台。然后你就可以将精力集中在如何洞悉数据上。祝大家好运！
　　——Arvind Prabhakar, CTO, StreamSets

Flume：构建高可用、可扩展的海量日志采集系统下载

Flume：构建高可用、可扩展的海量日志采集系统

发布书评

相关图书推荐