Flume:构建高可用、可扩展的海量日志采集系统

当前位置:首页 > 计算机/网络 > 软件工程/开发项目管理 > Flume:构建高可用、可扩展的海量日志采集系统

  • 版 次:1
  • 页 数:
  • 字 数:
  • 印刷时间:2015年08月01日
  • 开 本:16开
  • 纸 张:胶版纸
  • 包 装:平装
  • 是否套装:否
  • 国际标准书号ISBN:9787121265587
作者:Hari Shreedharan(哈里·史瑞德哈伦) 著,马延辉,史东杰 译出版社:电子工业出版社出版时间:2015年08月 
编辑推荐
  如何能将前端服务器上获得的数据近似实时放到Hadoop中去?有了这本完整的参考指南,你将学习Flume丰富的功能集合:收集、汇聚和写大量流数据到Hadoop分布式文件系统(HDFS)、Apache HBase、SolrCloud、ElasticSearch以及其他系统。
  本书指导运维工程师如何配置、部署和监控Flume群集,并指导开发人员如何编写Flume插件和特殊使用情况的自定义组件。你将了解Flume的设计和实现,以及使其具备高度可扩展、灵活和可靠等特性的各种功能。
  ■ 了解Flume如何通过数据生产者和消费者之间的缓冲区为流提供稳定的速率。
  ■ 深入Flume的关键组件,包括接收数据的Source和写入、转发数据的Sink。
  ■ 编写自定义插件来定制Flume接收、修改、格式化和写入数据的方式。
  ■ 探索从自己的应用程序发送数据到Flume Agent的API。
  ■ 以一种可扩展的、灵活的方式规划和部署Flume——一旦集群运行则监控集群。
 
内容简介
  本书从Flume 的基本概念和设计原理开始讲解,分别介绍了不同种类的组件、如何配置
  组件、如何运行Flume Agent 等。同时,分别讨论Source、Channel 和Sink 三种核心组件,不仅仅阐述每个组件的基本概念,而且结合实际的编程案例,深入、全面地介绍每个组件的详细用法,并且这部分内容也是整个Flume 框架的重中之重。之后,讲解拦截器、Channel选择器、Sink 组和Sink 处理器等内容,它们为Flume 提供灵活的扩展支持。最后,介绍了Flume 的高级使用,如何使用Flume 软件开发工具集(SDK)和Embedded Agent API,如何设计、部署和监控Flume 生产集群。
  总而言之,本书是一本理论结合实战,深度、广度兼备的海量日志采集系统的著作。
作者简介
  Hari Shreedharan是Cloudera的一名软件工程师,他工作于Apache Spark、Apache Flume和Apache Sqoop。他也是Flume项目的一个提交者和PMC成员,帮助项目的方向做决定。
目  录
译者序

前言
第1章 认识Apache Hadoop和Apache HBase
分布式文件系统HDFS
HDFS 的数据格式
处理HDFS 中的数据
Apache HBase
总结
参考文献
第2章 用Apache Flume 处理流数据
我们需要Flume
Flume 是否适合呢?
Flume Agent 内部原理
前  言
  O’Reilly Media, Inc.介绍
  O’Reilly Media 通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978 年开始,O’Reilly 一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来,而我们关注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者,O’Reilly 的发展充满了对创新的倡导、创造和发扬光大。
  O’Reilly 为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了Make 杂志,从而成为DIY 革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。O’Reilly 的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,O’Reilly 现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版、在线服务或者面授课程,每一项O'Reilly的产品都反映了公司不可动摇的理念——信息是激发创新的力量。
  业界评论
媒体评论
  “运维人员将会发现这本书,对于如何轻松设置和部署Flume管道的理解是非常有价值的。开发人员将找到一个方便的参考,以在Flume内部构建或自定义组件,并更好地理解其架构和组件的设计。最重要的是,这本书将给你为HDFS和HBase建立持续的输入提供必要的见解。”
  ——Arvind Prabhakar,StreamSets CTO
在线试读部分章节
  过去的几年中,大数据技术的发展和应用有了巨大的增长。Hadoop 和相关平台推动着基于不断增长的巨大数据量的下一波数据分析浪潮。今天产生的数据将用来预测明天发生的事情,伴随着数字革命以不断加快的速度席卷我们生活的所有方面。要跨过这个海量数据新时代的门槛,明显需要注意的一点是:开始处理如何获取所有的数据到你的集群中的数据。显然,这些数据产生的来源,广泛蔓延到整个企业,并且与机器、传感器和社会数据等产生了有趣的互动效应。任何处理类似挑战的操作员毫无疑问会同意,这点是很重要的——如果不是很困难,要建立一个系统,以符合成本效益的方式路由数据到你的集群。
  Apache Flume 正是用来应对这个挑战的。
  早在2011 年,当Flume 进入Apache 软件基金会孵化状态时,它就是Cloudera 工程师用来在Hadoop 上解决大规模日志数据聚合的一个项目。作为一开始就受欢迎的项目,它看到了大量的新需求,从事件排序到语义的可靠传递,并在其初始发行版就提出来了。鉴于它的受欢迎程度和人们对复杂要求的高需求,我们决定重构整个项目,让它在适用性和可管理性方面更简单、更强大,并在必要时允许简易扩展。在这个孵化器项目中,Hari 和我,连同其他几个工程师,都是昼夜不停地工作,与Flume 社区共同推动这个愿景,使其早日实现。从那时到现在,Flume 已经成型并将自己推入**Apache 项目,推出了多次稳定版本,从而大大丰富了其功能。
  如今,Flume 在世界各地的大量数据中心被积极部署和使用,有时跨度超越洲际。它继续有效地提供高弹性、容错、可靠、快速和高效的机制,将大量数据从各种各样的数据源移动到目的地系统,如HBase、HDFS 等。一个精心设计的Flume 拓扑,可以在最少或没有干预的前提下运转,实际上它能无限期地自运行。它提供了上下文的路由,当连接恢复时,通过提供可靠存储和重新发送消息的能力,能够处理宕机、网络中断等不可预知或计划外的中断。这些都是现成可用的,且通过使用已广泛采用的相当稳定和直观的接口,提供了自定义任何组件的灵活性。
  在本书中,Hari 概述了Flume 的各种组件,并在必要时深入细节。操作员将会发现,这本书对于如何轻松设置和部署Flume 管道的理解是非常有价值的。开发人员将找到一个方便的参考,以在Flume 内构建或自定义组件,并更好地理解其架构和组件的设计。
  最重要的是,这本书在你设置连续HDFS 和HBase 的输入时,会给出必要的见解——HDFS 和HBase 是如今最受欢迎的两个存储系统。
  通过部署Flume,可以确保数据——无论数据来自什么企业,或是多大量级——都将安全、及时地到达你的大数据平台。然后你就可以将精力集中在如何洞悉数据上。祝大家好运!
  ——Arvind Prabhakar, CTO, StreamSets

 Flume:构建高可用、可扩展的海量日志采集系统下载



发布书评

 
 

 

PDF图书网 

PDF图书网 @ 2017