图书介绍

Hadoop权威指南-第2版-修订&升级版

  • 怀特 著
  • 店铺: 北发图书网专营店
  • 出版社: 清华大学
  • ISBN:9787302257585
  • 版次:2
  • 上架时间:2015-01-21 08:42:21
  • 商品编码:1189833620
  • 出版时间:2011-07-01

手机扫码下载

手机扫码下载

赞助商链接

图书目录

《Hadoop权威指南(第2版)(修订?升级版)》编辑推荐:Google帝国的基石是什么?MapReduce算法!开源项目Hadoop作为它的一个具体实现,可以轻松用于构建和维护一个可靠性高、伸缩性强的分布式系统。作者Tom White作为Hadoop的项目负责人,通过自己对Hadoop和Hadoop社区的理解,化繁为简,用浅显易懂的语言介绍了Hadoop能做什么,怎么做才能充分发挥Hadoop的优势,Hadoop能够和哪些开源工具结合使用。《Hadoop权威指南(第2版)》是一本主题丰富、讲解透彻的权威参考书,可帮助程序员了解分析海量数据集的细枝末节,帮助管理员掌握搭建和运行Hadoop集群的具体过程。经过修订和更新的第2版概述了Hadoop的最新动态,例如Hive、sqoop和Avro等。书中还提供了案例分析来帮助读者了解如何用Hadoop来解决具体的问题。如果想充分利用数据,从中挖掘出有价值的见解或者观点,毫无疑问,《Hadoop权威指南(第2版)(修订?升级版)》将是您不可或缺的重要参考。“谁说大象不能跳舞?Hadoop-轻松应对海量数据存储与分析所带来的挑战!”使用Hadoop分布式文件系统(HDFS)来存储大型数据集,然后用MapReduce对这些数据II执行分布式计算。Hadoop的数据和I/O构建块(用于压缩、数据完整性、序列化和持久处理)。探究MapReduce应用开发中常见的陷阱和高级特性。设计,构建和管理Hadoop专用集群或在云上运行Hadoop。使用Pig这种高级的查询语言来进行大规模数据处理。使用Hive(Hadoop的数据仓库系统)来分析数据集。使用HBase(Hadoop的数据库)来处理结构化数据和半结构化数据。深入介绍Zookeeper,一个用于构建分布式系统的协作类型工具箱。Cloudera是一家行业领先的Hadoop软件和服务供应商。Cloudera's Distribution forHadoop (CDH)是一个基于Apache Hadoop的综合性数据管理平台,Cloudera Enterprise则包括一些工具、平台和支持,供生产环境中使用Hadoop时使用。
《Hadoop权威指南(第2版)》从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。《Hadoop权威指南(第2版)》共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何构建Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;Hive简介;ZooKeeper简介;开源工具Sqoop,最后还提供了丰富的案例分析。《Hadoop权威指南(第2版)》是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。
作者:(美国)怀特 (Tom White) 译者:周敏奇 钱卫宁 金澈清 王晓玲怀特(Tom White),从2007年以来,一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一,同时也是Cloudera的一名工程师。Tom为oreully网、java.net和IBM的developerWorks写过大量文章,并经常在很多行业大会上发表演讲。

第1章 初识Hadoop数据!数据!数据存储与分析与其他系统相比关系型数据库管理系统网格计算志愿计算1.3.4 Hadoop 发展简史Apache Hadoop和Hadoop生态圈第2章 关于MapReduce一个气象数据集数据的格式使用Unix工具进行数据分析使用Hadoop分析数据map阶段和reduce阶段横向扩展合并函数运行一个分布式的MapReduce作业Hadoop的StreamingRuby版本Python版本Hadoop Pipes编译运行第3章 Hadoop分布式文件系统HDFS的设计HDFS的概念数据块namenode和datanode命令行接口基本文件系统操作Hadoop文件系统接口Java接口从Hadoop URL中读取数据通过FileSystem API读取数据写入数据目录查询文件系统删除数据数据流文件读取剖析文件写入剖析一致模型通过 distcp并行拷贝保持 HDFS 集群的均衡Hadoop的归档文件使用Hadoop归档文件不足第4章 Hadoop I/O数据完整性HDFS的数据完整性LocalFileSystemChecksumFileSystem压缩codec压缩和输入切分在MapReduce中使用压缩序列化Writable接口Writable类实现定制的Writable类型序列化框架Avro依据文件的数据结构写入SequenceFileMapFile第5章 MapReduce应用开发配置API合并多个源文件可变的扩展配置开发环境配置管理辅助类GenericOptionsParser,Tool和ToolRunner编写单元测试mapperreducer本地运行测试数据在本地作业运行器上运行作业测试驱动程序在集群上运行打包启动作业MapReduce的Web界面获取结果作业调试使用远程调试器作业调优分析任务MapReduce的工作流将问题分解成MapReduce作业运行独立的作业第6章 MapReduce的工作机制剖析MapReduce作业运行机制作业的提交作业的初始化任务的分配任务的执行进度和状态的更新作业的完成失败任务失败tasktracker失败jobtracker失败作业的调度Fair SchedulerCapacity Schedulershuffle和排序map端reduce端配置的调优任务的执行推测式执行重用JVM跳过坏记录任务执行环境第7章 MapReduce的类型与格式MapReduce的类型默认的MapReduce作业输入格式输入分片与记录文本输入二进制输入多种输入数据库输入(和输出)输出格式文本输出二进制输出多个输出延迟输出数据库输出第8章 MapReduce的特性计数器内置计数器用户定义的Java计数器用户定义的Streaming计数器排序准备部分排序总排序二次排序联接map端联接reduce端联接边数据分布利用JobConf来配置作业分布式缓存MapReduce库类第9章 构建Hadoop集群集群规范网络拓扑集群的构建和安装安装Java创建Hadoop用户安装Hadoop测试安装SSH配置Hadoop配置配置管理环境设置Hadoop守护进程的关键属性Hadoop守护进程的地址和端口Hadoop的其他属性创建用户帐号安全性Kerberos和Hadoop委托令牌其他安全性改进利用基准测试程序测试Hadoop集群Hadoop基准测试程序用户的作业云上的HadoopAmazon EC2上的Hadoop第10章 管理HadoopHDFS永久性数据结构安全模式日志审计工具监控日志度量Java管理扩展(JMX)维护日常管理过程委任节点和解除节点升级第11章 Pig简介安装与运行Pig执行类型运行Pig程序

查看全部 ↓

精品推荐