java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 19869|回复: 121

[java电子书] HAWQ数据仓库与数据挖掘实战 PDF 电子书 百度云 网盘下载

  [复制链接]
  • TA的每日心情
    开心
    2021-5-25 00:00
  • 签到天数: 1917 天

    [LV.Master]出神入化

    2025

    主题

    3683

    帖子

    6万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    66097

    宣传达人突出贡献优秀版主荣誉管理论坛元老

    发表于 2019-4-9 23:27:00 | 显示全部楼层 |阅读模式
    java自学网(www.javazx.com)-java论坛,java电子书推荐:《 HAWQ数据仓库与数据挖掘实战》
    ( A9 ^+ @8 U/ |3 Ejava电子书推荐理由:Apache HAWQ是一个SQL-on-Hadoop产品,它非常适合用于Hadoop平台上快速构建数据仓库系统。HAWQ具有大规模并行处理、完善的SQL兼容性、支持存储过程和事务、出色的性能表现等特性,还可与开源数据挖掘库MADlib轻松整合,从而使用SQL就能进行数据挖掘与机器学习。 《HAWQ数据仓库与数据挖掘实战》内容分技术解析、实战演练与数据挖掘三个部分共27章。技术解析部分说明HAWQ的基础架构与功能特性,包括安装、连接、对象与资源管理、查询优化、备份恢复、高可用性等。实战演练部分用一个完整的示例,说明如何使用HAWQ取代传统数据仓库,包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与MADlib整合,实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法。 《HAWQ数据仓库与数据挖掘实战》适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。, g* W  c0 Z7 U$ S! n

    9 W) ?9 H' {" |! W作者:王雪迎! h) J# Z  i0 \  a$ a6 v" s
    出版社:清华大学出版社% q) n8 b/ o6 G" {' c
    出版时间:2018-03
    6 F; p  g6 a# @" d' q, N书籍价格:98.00元

    ; r0 p% `4 W! I/ A% ?8 [) y# v5 z) U% H) {. {( c
    111.png ; L+ m$ i( |& z; q& Y3 Q

    $ y9 ^! I3 a8 X5 v$ S# Cjava电子书目录:0 c% n: y( C* G8 z2 Q5 A: v5 V
    第一部分 HAWQ技术解析
    第1章  HAWQ概述      3
    1.1 SQL-on-Hadoop       3
    1.1.1 对SQL-on-Hadoop的期待 3
    1.1.2 SQL-on-Hadoop的实现方式       4
    1.2 HAWQ简介    6
    1.2.1 历史与现状         7
    1.2.2 功能特性    7
    1.3 HAWQ系统架构    9
    1.3.1 系统架构    10
    1.3.2 内部架构    11
    1.4  为什么选择HAWQ         12
    1.4.1 常用SQL-on-Hadoop产品的不足      12
    1.4.2 HAWQ的可行性          13
    1.4.3 适合DBA的解决方案        18
    1.5  小结        18
    第2章  HAWQ安装部署      19
    2.1  安装规划        19
    2.1.1 选择安装介质    19
    2.1.2 选择HAWQ版本         20
    2.1.3 确认Ambari与HDP的版本兼容性  20
    2.2  安装前准备   21
    2.2.1 确认最小系统需求    21
    2.2.2 准备系统安装环境    22
    2.2.3 建立本地Repository  24
    2.3  安装Ambari   25
    2.4  安装HDP集群       27
    2.5  安装HAWQ    29
    2.6  启动与停止HAWQ         34
    2.6.1 基本概念    34
    2.6.2 操作环境    34
    2.6.3 基本操作    36
    2.7  小结        40
    第3章  连接管理          41
    3.1  配置客户端身份认证   41
    3.2  管理角色与权限   45
    3.2.1 HAWQ中的角色与权限     45
    3.2.2 管理角色及其成员    46
    3.2.3 管理对象权限    48
    3.2.4 口令加密    49
    3.3 psql连接HAWQ     50
    3.4 Kettle连接HAWQ 52
    3.5  连接常见问题        55
    3.6  小结        56
    第4章  数据库对象管理     57
    4.1  创建和管理数据库        57
    4.2  创建和管理表空间        61
    4.3  创建和管理模式   65
    4.4  创建和管理表        72
    4.4.1 创建表  72
    4.4.2 删除表         74
    4.4.3 查看表对应的HDFS文件  74
    4.5  创建和管理视图   76
    4.6  管理其他对象        77
    4.7  小结        78
    第5章  分区表     79
    5.1 HAWQ中的分区表         79
    5.2  确定分区策略        80
    5.3  创建分区表   81
    5.3.1 范围分区与列表分区         81
    5.3.2 多级分区    86
    5.3.3 对已存在的非分区表进行分区         86
    5.4  分区消除        87
    5.5  分区表维护   91
    5.6  小结        98
    第6章  存储管理          99
    6.1  数据存储选项        99
    6.2  数据分布策略        103
    6.2.1 数据分布策略概述    103
    6.2.2 选择数据分布策略    104
    6.2.3 数据分布用法    108
    6.3  从已有的表创建新表   111
    6.4  小结        117
    第7章  资源管理          118
    7.1 HAWQ资源管理概述    118
    7.1.1 全局资源管理    118
    7.1.2 HAWQ资源队列          119
    7.1.3 资源管理器配置原则         119
    7.2  配置独立资源管理器   120
    7.3  整合YARN      123
    7.4  管理资源队列        129
    7.5  查询资源管理器状态   134
    7.6  小结        137
    第8章  数据管理          138
    8.1  基本数据操作        138
    8.2  数据装载与卸载   141
    8.2.1 gpfdist协议及其外部表    141
    8.2.2 基于Web的外部表   148
    8.2.3 使用外部表装载数据         151
    8.2.4 外部表错误处理         151
    8.2.5 使用hawq load装载数据  152
    8.2.6 使用COPY复制数据 155
    8.2.7 卸载数据    157
    8.2.8 hawq register      159
    8.2.9 格式化数据文件         159
    8.3  数据库统计   163
    8.3.1 系统统计    163
    8.3.2 统计配置    166
    8.4 PXF 168
    8.4.1 安装配置PXF      168
    8.4.2 PXF profile   168
    8.4.3 访问HDFS文件  170
    8.4.4 访问Hive数据   174
    8.4.5 访问JSON数据  186
    8.4.6 向HDFS中写入数据  190
    8.5  小结        194
    第9章  过程语言          195
    9.1 HAWQ内建SQL语言    195
    9.2 PL/pgSQL函数        197
    9.3  给HAWQ内部函数起别名   198
    9.4  表函数   198
    9.5  参数个数可变的函数   201
    9.6  多态类型        202
    9.7 UDF管理        205
    9.8 UDF实例——递归树形遍历        207
    9.9  小结        214
    第10章  查询优化       215
    10.1 HAWQ的查询处理流程      215
    10.2 GPORCA查询优化器  217
    10.2.1 GPORCA的改进        218
    10.2.2 启用GPORCA   224
    10.2.3 使用GPORCA需要考虑的问题       225
    10.2.4 GPORCA的限制        227
    10.3 性能优化      228
    10.4 查询剖析      232
    10.5 小结      238
    第11章  高可用性       239
    11.1 备份与恢复 239
    11.1.1 备份方法  239
    11.1.2 备份与恢复示例       242
    11.2 高可用性      247
    11.2.1 HAWQ高可用简介   247
    11.2.2 Master节点镜像      248
    11.2.3 HAWQ文件空间与HDFS高可用     251
    11.2.4 HAWQ容错服务       260
    11.3 小结      262
    第二部分  HAWQ实战演练
    第12章  建立数据仓库示例模型       265
    12.1 业务场景      265
    12.2 数据仓库架构      267
    12.3 实验环境      268
    12.4 HAWQ相关配置  269
    12.5 创建示例数据库 273
    12.5.1 在hdp4上的MySQL中创建源库对象并生成测试数据        273
    12.5.2 创建目标库对象       275
    12.5.3 装载日期维度数据  283
    12.6 小结      284
    第13章  初始ETL         285
    13.1 用Sqoop初始数据抽取      285
    13.1.1 覆盖导入  286
    13.1.2 增量导入  286
    13.1.3 建立初始抽取脚本  287
    13.2 向HAWQ初始装载数据     288
    13.2.1 数据源映射       288
    13.2.2 确定SCD处理方法  288
    13.2.3 实现代理键       289
    13.2.4 建立初始装载脚本  289
    13.3 建立初始ETL脚本      291
    13.4 小结      293
    第14章  定期ETL         294
    14.1 变化数据捕获      294
    14.2 创建维度表版本视图 296
    14.3 创建时间戳表      297
    14.4 用Sqoop定期数据抽取      298
    14.5 建立定期装载HAWQ函数 298
    14.6 建立定期ETL脚本      303
    14.7 测试  javazx.com    303
    14.7.1 准备测试数据  303
    14.7.2 执行定期ETL脚本   304
    14.7.3 确认ETL过程正确执行   305
    14.8 动态分区滚动      307
    14.9 准实时数据抽取 309
    14.10 小结   317
    第15章  自动调度执行ETL作业        318
    15.1 Oozie简介   318
    15.2 建立工作流前的准备 320
    15.3 用Oozie建立定期ETL工作流   324
    15.4 Falcon简介  328
    15.5 用Falcon process调度Oozie工作流 329
    15.6 小结      332
    第16章  维度表技术   333
    16.1 增加列 333
    16.2 维度子集      342
    16.3 角色扮演维度      348
    16.4 层次维度      354
    16.4.1 固定深度的层次       355
    16.4.2 多路径层次       357
    16.4.3 参差不齐的层次       359
    16.5 退化维度      361
    16.6 杂项维度      366
    16.7 维度合并      374
    16.8 分段维度      380
    16.9 小结      386
    第17章  事实表技术   387
    17.1 周期快照      388
    17.2 累积快照      394
    17.3 无事实的事实表 404
    17.4 迟到的事实 409
    17.5 累积度量      416
    17.6 小结      422
    第18章  联机分析处理       423
    18.1 联机分析处理简介      423
    18.1.1 概念  423
    18.1.2 分类  424
    18.1.3 性能  426
    18.2 联机分析处理实例      427
    18.2.1 销售订单  427
    18.2.2 行列转置  433
    18.3 交互查询与图形化显示      440
    18.3.1 Zeppelin简介    440
    18.3.2 使用Zeppelin执行HAWQ查询       441
    18.4 小结      448
    第三部分  HAWQ数据挖掘
    第19章  整合HAWQ与MADlib 451
    19.1 MADlib简介         452
    19.2 安装与卸载MADlib     455
    19.3 MADlib基础         458
    19.3.1 向量  458
    19.3.2 矩阵  469
    19.4 小结  javazx.com    484
    第20章  奇异值分解   485
    20.1 奇异值分解简介 485
    20.2 MADlib奇异值分解函数     486
    20.3 奇异值分解实现推荐算法 489
    20.4 小结      501
    第21章  主成分分析   502
    21.1 主成分分析简介 502
    21.2 MADlib的PCA相关函数    504
    21.3 PCA应用示例      509
    21.4 小结      513
    第22章  关联规则方法       514
    22.1 关联规则简介      514
    22.2 Apriori算法 517
    22.2.1 Apriori算法基本思想       517
    22.2.2 Apriori算法步骤       518
    22.3 MADlib的Apriori算法函数         518
    22.4 Apriori应用示例 519
    22.5 小结      524
    第23章  聚类方法       525
    23.1 聚类方法简介      525
    23.2 k-means方法       526
    23.2.1 基本思想  527
    23.2.2 原理与步骤       527
    23.2.3 k-means算法    527
    23.3 MADlib的k-means相关函数     529
    23.4 k-means应用示例       532
    23.5 小结      537
    第24章  回归方法       538
    24.1 回归方法简介      538
    24.2 Logistic回归         539
    24.3 MADlib的Logistic回归相关函数       539
    24.4 Logistic回归示例         542
    24.5 小结      546
    第25章  分类方法       547
    25.1 分类方法简介      547
    25.2 决策树 549
    25.2.1 决策树的基本概念  549
    25.2.2 决策树的构建步骤  549
    25.3 MADlib的决策树相关函数         551
    25.4 决策树示例 555
    25.5 小结      561
    第26章  图算法   562
    26.1 图算法简介 562
    26.2 单源最短路径      565
    26.3 MADlib的单源最短路径相关函数     566
    26.4 单源最短路径示例      567
    26.5 小结      569
    第27章  模型验证       570
    27.1 交叉验证简介      570
    27.2 MADlib的交叉验证相关函数     573
    27.3 交叉验证示例      575
    27.4 小结      578

    - z/ K  i' S% N+ _% `Java资料百度网盘下载地址链接(百度云):HAWQ数据仓库与数据挖掘实战@www.javazx.com.pdf【密码回帖可见】. ^2 E* P: e+ X5 c
    游客,如果您要查看本帖隐藏内容请回复
    0 M5 f: X4 J+ d- U

    8 G: D, J7 S( v8 d, _. f
    " j2 k3 p- A$ o/ x/ d$ k, g
      K2 o3 r; R6 q' j
    回复

    使用道具 举报

  • TA的每日心情
    无聊
    2019-4-10 11:09
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    7

    帖子

    36

    积分

    普通会员

    Rank: 2

    积分
    36
    发表于 2019-4-10 11:18:16 | 显示全部楼层
    感谢分享。好好学习。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    郁闷
    2021-1-11 16:32
  • 签到天数: 122 天

    [LV.7]自成一派

    1

    主题

    317

    帖子

    30万

    积分

    终身VIP

    Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60

    积分
    302715
    发表于 2019-4-11 13:34:18 | 显示全部楼层
    366666666666666666
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-4-13 18:04
  • 签到天数: 5 天

    [LV.2]登堂入室

    0

    主题

    8

    帖子

    118

    积分

    普通会员

    Rank: 2

    积分
    118
    发表于 2019-4-13 18:04:35 | 显示全部楼层
    感谢分享,好好学习!!!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2021-4-29 18:18
  • 签到天数: 472 天

    [LV.9]功行圆满

    0

    主题

    1656

    帖子

    31万

    积分

    终身VIP

    Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60

    积分
    310244
    发表于 2019-4-30 11:02:11 | 显示全部楼层
    very gooood
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    1

    帖子

    4

    积分

    普通会员

    Rank: 2

    积分
    4
    发表于 2019-8-4 20:09:39 | 显示全部楼层
    感谢分享!
    回复

    使用道具 举报

  • TA的每日心情
    无聊
    2019-10-28 16:18
  • 签到天数: 3 天

    [LV.2]登堂入室

    0

    主题

    20

    帖子

    90

    积分

    普通会员

    Rank: 2

    积分
    90
    发表于 2019-8-12 10:00:06 | 显示全部楼层
    所有帖子由该帖子作者发表,该帖子作者享有帖子相
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2019-8-29 23:40
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    3

    帖子

    22

    积分

    普通会员

    Rank: 2

    积分
    22
    发表于 2019-8-29 23:42:45 | 显示全部楼层
    谢谢分享啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-5-24 17:27
  • 签到天数: 480 天

    [LV.9]功行圆满

    0

    主题

    609

    帖子

    30万

    积分

    终身VIP

    Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60

    积分
    309591
    发表于 2019-8-30 08:32:41 | 显示全部楼层
    java 谢谢楼主,学习学习。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-9-28 20:05
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    18

    积分

    普通会员

    Rank: 2

    积分
    18
    发表于 2019-9-28 20:06:08 | 显示全部楼层
    非常的good
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2024-4-27 17:10 , Processed in 0.091272 second(s), 42 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表