Hadoop虚拟化

978-7-115-49754-3
作者: [美]乔治·特鲁希略(George Trujillo),查尔斯·吉姆(Charles Kim),史蒂夫·琼斯(Steve Jones),隆美尔·加西亚(Rommel Garcia),贾斯汀·默里(Justin Murray)
译者: 陈鹏 肖明兴
编辑: 罗子超

图书目录:

目录

第 1章 了解大数据的世界 1

1.1 数据革命 1

1.2 传统数据系统 3

1.2.1 半结构化和非结构化数据 4

1.2.2 因果关系 6

1.2.3 数据挑战 6

1.3 现代数据架构 14

1.4 组织转型 15

1.5 行业转型 17

1.6 小结 17

第 2章 Hadoop基础概念 18

2.1 Hadoop中的数据类型 18

2.2 使用案例 19

2.3 什么是Hadoop 20

2.4 Hadoop发行版本 25

2.5 Hadoop框架 25

2.6 NoSQL数据库 29

2.7 Hadoop集群 33

2.8 Hadoop软件进程 36

2.9 Hadoop生态中的角色 45

2.10 小结 48

第3章 YARN和HDFS 49

3.1 Hadoop分布式集群 49

3.2 Hadoop目录结构 53

3.3 Hadoop分布式文件系统 54

3.3.1 YARN日志 56

3.3.2 NameNode 57

3.3.3 DataNode 58

3.3.4 块分布 60

3.3.5 NameNode配置和元数据管理 62

3.4 机架感知 67

3.4.1 块管理 67

3.4.2 均衡器 68

3.4.3 群集中的数据完整性维护 68

3.4.4 配额和垃圾桶 76

3.5 YARN和YARN处理模型 76

3.5.1 在YARN上运行应用 83

3.5.2 资源调度器 88

3.5.3 基准测试 92

3.5.4 TeraSort基准测试组件 94

3.6 小结 96

第4章 现代数据平台 98

4.1 设计一个Hadoop集群 98

4.2 小结 115

第5章 数据提取 117

5.1 提取、加载和转化 117

5.1.1 Sqoop:数据移动和SQL源 118

5.1.2 Flume:流数据 123

5.1.3 Oozie:计划和工作流 140

5.1.4 Falcon:数据生命周期管理 145

5.1.5 Kafka:实时数据流 148

5.2 小结 156

第6章 Hadoop SQL引擎 157

6.1 SQL的起源 157

6.2 Hadoop中的SQL 158

6.3 Hadoop SQL引擎 159

6.4 感受Hive和Pig的乐趣 166

6.4.1 Hive 166

6.4.2 HCatalog 180

6.5 小结 187

第7章 Hadoop多租户 188

7.1 保障访问 189

7.1.1 认证 189

7.1.2 审计 194

7.1.3 授权 194

7.1.4 数据保护 196

7.1.5 数据隔离 203

7.1.6 进程隔离 211

7.2 小结 214

第8章 虚拟化基础 215

8.1 Hadoop虚拟化的原因 216

8.2 小结 231

参考文献 231

第9章 Hadoop虚拟化最佳实践 232

9.1 有目的、有调理地进行Hadoop虚拟化 232

9.1.1 目的始于明确的目标 234

9.1.2 Hadoop不同层次虚拟化 234

9.1.3 行业最佳实践 236

9.2 小结 249

第 10章 Hadoop虚拟化 250

10.1 如何管理Hadoop生态 251

10.1.1 构建敏捷和弹性的企业Hadoop平台 252

10.1.2 澄清条款 252

10.1.3 从裸机到虚拟化的历程 253

10.2 为何考虑Hadoop虚拟化 254

10.2.1 Hadoop虚拟化的好处 255

10.2.2 虚拟化可以跟本地运行一样快甚至更快 256

10.2.3 协调和交叉目的专业化是未来 258

10.2.4 障碍可以是在企业之前 259

10.2.5 虚拟化不是全部或不是一个选项 259

10.2.6 快速配置并提高开发和测试环境质量 259

10.2.7 使用虚拟化提升高可用性 261

10.2.8 使用虚拟化处理Hadoop工作负载 261

10.2.9 基于云的Hadoop 262

10.2.10 大数据扩展 262

10.2.11 虚拟化的途径 263

10.2.12 软件定义数据中心 264

10.2.13 虚拟化网络 265

10.2.14 vRealize Suite 266

10.3 小结 267

参考文献 268

第 11章 Hadoop虚拟化主服务器 269

11.1 Hadoop虚拟化集群服务器 269

11.1.1 Hadoop周边环境虚拟化 270

11.1.2 Hadoop主服务器虚拟化 271

11.1.3 无SAN虚拟化 274

11.2 小结 275

第 12章 虚拟化工作节点 276

12.1 Hadoop中的工作节点 276

12.2 Hadoop集群的部署模式 277

12.2.1 组合模式 278

12.2.2 分离模式 281

12.2.3 数据-计算分离的网络影响 283

12.2.4 数据-计算分离模式下的共享存储方式 284

12.2.5 用于应用临时数据的本地磁盘 286

12.2.6 使用网络附加存储(NAS)的共享存储架构模型 286

12.2.7 部署模式总结 288

12.3 Hadoop虚拟化工作节点的最佳实践 289

12.4 Hadoop虚拟化扩展 293

12.5 小结 296

参考文献 296

资源 297

第 13章 私有云中部署Hadoop即服务 298

13.1 云概念 298

13.1.1 Hadoop的受益者 299

13.1.2 解决方案架构概述 303

13.2 小结 305

参考文献 305

第 14章 掌握Hadoop的安装 306

14.1 为正确的场景使用正确的解决方案 306

14.2 配置仓库 308

14.2.1 安装HDP2.2 310

14.2.2 环境准备 310

14.3 设置Hadoop配置 320

14.4 启动HDFS和YARN 325

14.4.1 启动YARN 327

14.4.2 验证MapReduce功能 329

14.5 安装和配置Hive 331

14.6 安装和配置MySQL数据库 331

14.7 安装和配置Hive和HCatalog 331

14.8 小结 334

第 15章 为Hadoop配置Linux 336

15.1 支持的Linux平台 337

15.2 不同部署模式 337

15.3 Linux黄金模板 337

15.3.1 构建企业级Linux Hadoop平台 338

15.3.2 Linux版本选择 341

15.4 最优Linux内核参数和系统设置 341

15.4.1 epoll 341

15.4.2 禁用交换空间 342

15.4.3 安装过程中的安全性禁用 342

15.4.4 IO调度器调优 344

15.4.5 检查透明大内存页面配置 344

15.4.6 Limits.conf 344

15.4.7 RDM分区对齐 345

15.4.8 文件系统注意事项 345

15.4.9 XFS惰性计算参数 347

15.4.10 Mount选项 347

15.4.11 I/O调度器 348

15.4.12 磁盘读写选项 350

15.4.13 存储基准测试 350

15.4.14 Java版本 351

15.4.15 设置NTP 351

15.4.16 启用巨型帧 352

15.4.17 其他网络方面的考虑 353

15.5 小结 355

附录 Hadoop集群创建:先决条件检查表 356

详情

本书包括三部分内容:第一部分带你理解Hadoop的SQL引擎和理解Hadoop生态系统关于多租户的关键领域;第二部分适合掌握Hadoop但需要理解虚拟化的读者。包括“虚拟化基础”和“最佳实践虚拟化Hadoop”;第三部分将Hadoop和虚拟化的概念联系在了一起。最后一章阐述虚拟化Hadoop的选择、虚拟化主节点的关键因素以及私有云的虚拟化工作(数据)节点。

图书摘要

相关图书

D3 4.x数据可视化实战手册(第2版)
D3 4.x数据可视化实战手册(第2版)
数据科学实战手册(第2版)
数据科学实战手册(第2版)
Java数据分析指南
Java数据分析指南
Java数据科学指南
Java数据科学指南
数据科学家访谈录
数据科学家访谈录
概率图模型:基于R语言
概率图模型:基于R语言

相关文章

相关课程