java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 20537|回复: 89

[java电子书] Spark快速大数据分析(电子书) PDF 电子书 百度云 网盘下载

  [复制链接]
  • TA的每日心情
    开心
    2018-4-8 22:14
  • 签到天数: 1 天

    [LV.1]初学乍练

    1835

    主题

    1837

    帖子

    5517

    积分

    普通会员

    Rank: 2

    积分
    5517
    发表于 2018-7-3 20:32:00 | 显示全部楼层 |阅读模式
    java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark快速大数据分析(电子书)》2 B3 z8 ^- R* O# |% E/ s' v
    java电子书推荐理由:Spark发者出品! 《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。 本书由Spark发者编写,可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。
    # P+ z- t; b8 T0 L6 b, S, c

    : _/ k$ {0 e1 R8 s# O# e1 P作者:卡劳 Holden Karau
    8 z9 A$ y. t+ ~2 ^6 o$ w出版社:人民邮电出版社
      C8 @4 n* j; Y  Y6 Z出版时间:2015-09-01 : H. ~" y6 A4 J" Q% X. B
    书籍价格:0.00元
    : p% n& Z: _: n/ a' W6 L1 E7 H! G1 H# L! m; ?2 b5 d
    / l2 ]; l: e0 ~6 w

    7 L# r2 j$ W; {2 U1 _

      z, I. y4 X4 g! t5 k7 _$ ^java电子书目录:$ d+ s+ y0 I& {* ~
    第1章 Spark数据分析导论  1
    # O" i9 M0 {2 E: b1.1 Spark是什么  1: c+ O- l& m: Q+ H6 w0 d( y! g
    1.2 一个大一统的软件栈  2
    % D$ {4 k, [* u& O( g8 P; C/ C& G: w1.2.1 Spark Core  2
    6 I$ o" B3 b0 \' Y# e1.2.2 Spark SQL  32 Y# `( a9 G1 O) W; [5 G1 u  {% G6 Q
    1.2.3 Spark Streaming  3' P. q) e) S4 h. d4 ?7 S
    1.2.4 MLlib  3
    : g2 W2 O+ g7 t7 P0 L1.2.5 GraphX  3
    6 d$ U' P8 ~( h8 @  d1.2.6 集群管理器  4! D; O; u9 y8 |2 t# M
    1.3 Spark的用户和用途  4
    # f) y' x' A4 ^; D$ Q7 K1.3.1 数据科学任务  4
    1 k& ~. ]9 o5 W8 j$ g, Y3 @1.3.2 数据处理应用  5  J$ C: W7 f; C0 p
    1.4 Spark简史  5
    1 S* e: b% `; J: w- S1.5 Spark的版本和发布  6
    % N! p0 N: d2 \1 S) ~* L- n( v6 ]! @1.6 Spark的存储层次  6
    ; d' a3 i7 z( h/ t+ N第2章 Spark下载与入门  7
    2 p7 z  ~' O+ }% ?2.1 下载Spark  7
    % ?/ T4 a; U# q: ~# |2.2 Spark中Python和Scala的shell  9; T1 v6 V/ b8 J( W/ B& z
    2.3 Spark 核心概念简介  12
    " i9 H) m" `$ ]. ]7 y5 b% c2.4 独立应用  14
    7 ^0 G6 ]$ V7 Y9 D% J6 k4 c2.4.1 初始化SparkContext  15
    - |  D2 e$ j! k* l. U8 a' \: ?2.4.2 构建独立应用  16
    . ^+ A5 W6 @# W: p2 Q' X" c5 O. Q2.5 总结  19
    , z/ _3 ?; |2 R* h5 }% E% W第3章 RDD编程  21
    9 c( A6 F0 {% U. a5 _8 F3.1 RDD基础  213 V8 H- O) Q5 J' A* x
    3.2 创建RDD  233 R* A8 P4 S& w+ p6 x
    3.3 RDD操作  24
    7 `5 h4 o/ S5 V' k7 Y3.3.1 转化操作  245 |' k% g7 m2 a5 U+ z2 f
    3.3.2 行动操作  26
    # F4 _" l" Q# p& _6 J5 _& B3.3.3 惰性求值  27
    $ S! h3 f: t8 }3.4 向Spark传递函数  273 q$ H! {6 v% k, ]# X' Z
    3.4.1 Python  276 K4 \) G7 N) g1 M' ^0 S
    3.4.2 Scala  28( L+ Z8 |' p0 h- b, M
    3.4.3 Java  29  X8 I0 D3 q/ d$ @6 P
    3.5 常见的转化操作和行动操作  309 S4 `" q5 N% V6 \2 g# u) u3 ]7 W& z% ?" L
    3.5.1 基本RDD  30
    & l7 ^- `. |6 f+ j8 b3.5.2 在不同RDD类型间转换  376 D  u# Y. o" z+ M( _3 G+ `
    3.6 持久化( 缓存)  396 n. e  f4 j4 g  H
    3.7 总结  400 e/ j! U" s1 z2 ^% n- O: k2 Z
    第4章 键值对操作  41
    8 c6 E. Y; f# b2 H3 c' s5 a4.1 动机  41
    4 y! ~) V9 O0 Y8 ?; E" i4.2 创建Pair RDD  42
    & n* g' U6 e% @$ X4 D/ {+ X4.3 Pair RDD的转化操作  429 V8 T% F+ R- p3 G; X4 s
    4.3.1 聚合操作  45
    % }" u- f8 i3 v) @4 n; J4.3.2 数据分组  49
    " ~! q* i! d' l, T4.3.3 连接  50! S: p0 W  w' {2 P; u
    4.3.4 数据排序  51
    ' ~/ G2 I* t: Z# N; u  H4.4 Pair RDD的行动操作  52
    ' z" I3 b) O8 Q& J! D4.5 数据分区(进阶)  52
    % P0 \( `5 s6 Y  U6 f8 l' ~) Y4.5.1 获取RDD的分区方式  558 N( R+ B  P: q3 G: z$ I' Q9 l
    4.5.2 从分区中获益的操作  56+ {: W* i  F/ H' i6 @- t, g
    4.5.3 影响分区方式的操作  57
    % r+ K0 ^( k# _0 d/ h  V4.5.4 示例:PageRank  57# H1 ^1 d* v6 L2 a
    4.5.5 自定义分区方式  59: ?* X# ~' z; T* l, n
    4.6 总结  61
      u  Y; W. s$ ]% @$ y7 ~第5章 数据读取与保存  63+ ^0 Y2 f3 e- b8 }: v
    5.1 动机  631 G5 U, l: q3 u; p' f  {$ X
    5.2 文件格式  64/ Z0 I' b/ m3 e7 p( m+ z
    5.2.1 文本文件  64
    & T/ J, t% i3 ]  C+ h5.2.2 JSON  66
    * Z  Y6 T9 {7 x: f5.2.3 逗号分隔值与制表符分隔值  68( d" S* v0 [, ^) c: v1 P5 h
    5.2.4 SequenceFile  71+ K( u, R; Z/ a# v# V+ C( l
    5.2.5 对象文件  73
    5 A% K3 H  i! Y+ o9 ^: t! q, n8 p5.2.6 Hadoop输入输出格式  73, |# Z: j; h7 r
    5.2.7 文件压缩  77' f* a. P4 a6 q! F- W7 ^) J9 ^* @" }
    5.3 文件系统  78
    % B% R9 ~0 m: ?2 k4 g' I. D5.3.1 本地/“常规”文件系统  78
    3 M, n' K# @+ f) R: _5.3.2 Amazon S3  786 J4 Z6 T8 H* C# O' @
    5.3.3 HDFS  790 c) f- I' S8 M, `( Q
    5.4 Spark SQL中的结构化数据  79
    ! P' Y. m1 p1 \) G- j# ^1 \$ v5.4.1 Apache Hive  80
    " |5 G/ K. Y+ J5 O5.4.2 JSON  80( ?; T" ]6 f; _9 k" j
    5.5 数据库  81
    * V) h" V1 K0 [# Q) w5.5.1 Java数据库连接  81$ ?! Q2 T& O$ u" U& c; H/ z
    5.5.2 Cassandra  82
    5 K& v& a' Y! ]0 @* C, W5.5.3 HBase  84. M4 ]' S9 f9 H/ n. ]8 }; @  i
    5.5.4 Elasticsearch  85
    4 q8 O7 z) Y+ h5.6 总结  86
    / b4 z" v" `- X% h* T1 e0 G) i第6章 Spark编程进阶  87
    , _& g4 b6 ]: N' i9 b% m9 K6.1 简介  87, O/ T. g# Z' b# s* ?8 I
    6.2 累加器  88
    & T  Z; g* I4 `0 u8 `7 K6.2.1 累加器与容错性  90' X$ S0 {7 n: w
    6.2.2 自定义累加器  91( {! C7 q$ Q- O: y9 x+ N
    6.3 广播变量  91
    8 w# n; x( u: y  A6.4 基于分区进行操作  94+ n4 L: f# t$ k* @7 _! R, b
    6.5 与外部程序间的管道  969 A8 R7 W! b  s; E( Y& M( ^
    6.6 数值RDD 的操作  99
    9 T" S" Y) {4 L6 T1 q+ `' A6.7 总结  1004 B, y! l3 |) ~! e' _0 [0 `
    第7章 在集群上运行Spark  101
    ( S3 D0 M) R5 M3 f) p4 T# H7.1 简介  101; e7 D; A! ^/ b
    7.2 Spark运行时架构  101) U( C( _, u/ P* z. J7 m3 q
    7.2.1 驱动器节点  102
    : T5 Y  f: S; g7.2.2 执行器节点  103# J. T& Z& S$ M7 R
    7.2.3 集群管理器  103
    6 s! m% A) K- P' B' A7.2.4 启动一个程序  104, ~" \* S& G' S& c9 O
    7.2.5 小结  104
    + j4 E9 d$ ]) j8 U" L3 L7.3 使用spark-submit 部署应用  105% @  {9 e9 S; E5 B- N0 F+ T" B' B
    7.4 打包代码与依赖  107
    / e  W+ a* z& _/ W, }7.4.1 使用Maven构建的用Java编写的Spark应用  108
    4 \% N% [( f) @, f7.4.2 使用sbt构建的用Scala编写的Spark应用  109
    . |& T8 C- E1 p2 @+ D7.4.3 依赖冲突   111/ y- l2 X% h  ~! B! Y" @9 t8 r
    7.5 Spark应用内与应用间调度  111
    ' j; E( x% \! m3 r. n7.6 集群管理器  1127 Y, W/ u+ Y# j% D
    7.6.1 独立集群管理器  1127 h$ ]" s3 y, B- I& Z9 J2 d
    7.6.2 Hadoop YARN  115
    4 ^5 L. Z& M5 r- Y* h* l7.6.3 Apache Mesos  1166 m7 A: V/ i& _' T! X5 C- s
    7.6.4 Amazon EC2  117" v3 T6 R, E8 y6 _; `1 a
    7.7 选择合适的集群管理器  120, l% ?4 [8 ]: P2 O  p
    7.8 总结  121$ D# k, D/ D- w( J
    第8章 Spark调优与调试  1232 C& H6 _6 i( M$ e; [0 [
    8.1 使用SparkConf配置Spark  123, E& a* ^- c2 U$ Z2 q# v% |- q
    8.2 Spark执行的组成部分:作业、任务和步骤  127
    1 u" r) L/ P/ Z" F8.3 查找信息  131) Q2 `1 r' q+ h4 |* p1 e6 d" i
    8.3.1 Spark网页用户界面  131
    ' z" q% W% Q2 K0 F/ v/ Z( g8.3.2 驱动器进程和执行器进程的日志  134
    ' D$ |% n6 M5 M8.4 关键性能考量  135
    - X  c% o0 ]* J: T+ M0 F8.4.1 并行度  135* J6 g- v2 k- R  H
    8.4.2 序列化格式  1360 n  E0 \8 m) D! W! c' O3 v9 {$ K
    8.4.3 内存管理  137: j' N7 L  K% {, D9 F/ ^7 s
    8.4.4 硬件供给  138
    % [7 ~0 e8 Q% z" z" E, i- h8.5 总结  139
    ! f5 @7 q; Y% B/ n) Y% h' y8 A第9章 Spark SQL  1414 P3 U3 h; E! F# I- m  i% E
    9.1 连接Spark SQL  142
    1 [* l* `' d' s2 e6 ]9.2 在应用中使用Spark SQL  1440 U# ?" l) R' s( I! {( q
    9.2.1 初始化Spark SQL  144
    / h. X, ?3 j( H6 U6 J9.2.2 基本查询示例  145
    0 d. E* K/ e5 L: `. w  B9 z5 Z9.2.3 SchemaRDD  146
    8 i; P. ~4 W6 I4 `9.2.4 缓存  148% Z$ x# K( {5 r3 C
    9.3 读取和存储数据  149  q3 z0 B# b+ r! P2 |2 S
    9.3.1 Apache Hive  149
    0 T1 i! @) U* ^  A: J  e. T9.3.2 Parquet  150' V( x1 x8 \  t" Z! \
    9.3.3 JSON  150
    . h% T  R5 Q% T9.3.4 基于RDD  152
    + s4 x4 M; N' \9.4 JDBC/ODBC服务器  153
    1 V# k; j# A' F" ?  ~1 P  c9.4.1 使用Beeline  155
    1 R0 o+ k8 P6 X1 _6 {$ I; Q4 ^: i9.4.2 长生命周期的表与查询  156
    . x/ H% |( f1 |4 I9.5 用户自定义函数  156
    . [. d2 M2 Z# \% E  j& O+ H* |; U3 m) @9.5.1 Spark SQL UDF  156
    ' s: a: j, n. m1 i9.5.2 Hive UDF  157
    ; w6 `) O1 w, L( M0 q3 d" \9 W0 `9.6 Spark SQL性能  158
    9 H2 `# b; {$ }4 ~" o$ r9 H; H9.7 总结  159) L  U' o3 {( l: F* N
    第10章 Spark Streaming  1611 P' t: F! T9 a  V  m; j# u
    10.1 一个简单的例子  162
    # B: D7 O2 v$ Q0 r3 A- S$ y+ n10.2 架构与抽象  164
    " K1 z0 M: ~! F6 b1 b1 e2 C7 U10.3 转化操作  167, j8 P- k' {: p9 C& j1 `  `
    10.3.1 无状态转化操作  167
    4 T) O' ~  L" q8 v& r6 v10.3.2 有状态转化操作  169
    4 \! j' z0 ]$ r$ W10.4 输出操作  173
    6 Z5 c5 e" n8 X+ I7 p10.5 输入源  1757 S. H1 }1 z: B3 c& n$ ?+ A9 u
    10.5.1 核心数据源  1758 U0 N& Z4 N3 b4 i' d( S4 U
    10.5.2 附加数据源  176
    ) b9 E* M/ y" F0 w10.5.3 多数据源与集群规模  179
    2 V0 m# l7 g0 R" i/ m1 e& V10.6 24/7不间断运行  180
    : ^4 R' b0 ^$ Z* y! m10.6.1 检查点机制  180
    ! h: Z2 W5 O& I3 M10.6.2 驱动器程序容错  181
    3 u& d3 P" n- j. X; h7 L2 v10.6.3 工作节点容错  182
    2 R4 N' }* H+ b0 D10.6.4 接收器容错  1823 f  h. g! {8 s9 o  f
    10.6.5 处理保证  183. P+ g2 d1 v+ J8 b% u3 C6 p2 q
    10.7 Streaming用户界面  183
    6 y" c0 d! Z" Y; b$ @10.8 性能考量  184* y( {3 U- e; z" _% T
    10.8.1 批次和窗口大小  184
    ; ?6 P( J; C; v3 _10.8.2 并行度  184. _1 W( o4 t6 ?
    10.8.3 垃圾回收和内存使用  185
    9 i( s7 a" X6 N6 X8 r10.9 总结  185( l6 I5 o7 w) U- R$ l) s  d
    第11章 基于MLlib的机器学习  187: W6 C6 j  V  M  {4 @# _4 \0 n
    11.1 概述  187
    9 G8 H& c/ L( m) [11.2 系统要求  188
    ) u4 u0 j& Y+ R- t6 |5 ?9 \$ t0 G) @11.3 机器学习基础  189: e; i: t" w7 X
    11.4 数据类型  1921 @8 ^: [: t$ X( h& {' c" Y# D" V
    11.5 算法  194
    ) Q; Q% K4 x8 L5 [- t11.5.1 特征提取  194
    & U+ ^  m" k: B5 Z2 @6 b: |6 M11.5.2 统计  196
    ; d! ~9 z% x7 q1 E11.5.3 分类与回归  197
    . F# `3 }, }( ^# F9 A8 y11.5.4 聚类  202$ _: ?& T+ h" Z% n$ [$ Q" d
    11.5.5 协同过滤与推荐  203  o- [* q5 }4 e+ A1 y# n$ ~
    11.5.6 降维  204, S: C( m0 b8 `
    11.5.7 模型评估  206
    7 N! C$ @& U: x6 o8 P: m8 W11.6 一些提示与性能考量  206
    % v! L, q% q1 Z5 X' w8 ?+ i11.6.1 准备特征  2066 r9 v4 @) t' x8 N1 M' G" P8 Y4 t! X3 [
    11.6.2 配置算法  207
    7 z. Z, }' x/ ]- c! @11.6.3 缓存RDD以重复使用  207
    ; e0 [) Z! |  ^0 a$ X+ b0 T11.6.4 识别稀疏程度  2071 x+ }) o4 D0 H9 C) F
    11.6.5 并行度  207
    # G9 e* y  `' W% `$ a11.7 流水线API  208
    : |# D8 \4 S3 z' t11.8 总结  209) m* r; Z6 R- P2 A
    作者简介  210
    : |- S0 t7 f" ^$ t封面介绍  210
    ) _4 S" G9 H7 _8 L+ a- i, a, H+ Q# O1 S$ o5 j/ @* }
    Java资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark快速大数据分析(电子书)  PDF 高清 电子书 百度云.rar【密码回帖可见】( }0 m- ^( K( s; f/ N2 [* e; V
    游客,如果您要查看本帖隐藏内容请回复

    3 ]9 p) Y$ Q7 W1 D6 I7 d( Y( J5 R% }

      @7 `+ I$ d' a$ o( x- y( g
    / M) t7 ^& s' z" g$ K0 j3 V; b  ]
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2018-7-25 10:19
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    12

    积分

    普通会员

    Rank: 2

    积分
    12
    发表于 2018-7-25 10:20:35 | 显示全部楼层
    学习学习spark技术。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2018-7-30 23:54
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    12

    积分

    普通会员

    Rank: 2

    积分
    12
    发表于 2018-7-30 23:57:38 | 显示全部楼层
    新手入门学习,谢谢楼主共享
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018-8-9 13:40
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    11

    积分

    普通会员

    Rank: 2

    积分
    11
    发表于 2018-8-9 13:41:49 | 显示全部楼层
    感谢您的分享一定有帮助的
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2018-8-9 13:56
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    4

    帖子

    16

    积分

    普通会员

    Rank: 2

    积分
    16
    发表于 2018-8-9 14:08:37 | 显示全部楼层
    QQ
    回复

    使用道具 举报

  • TA的每日心情
    擦汗
    2018-8-15 14:18
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    6

    帖子

    33

    积分

    普通会员

    Rank: 2

    积分
    33
    发表于 2018-8-14 19:10:25 | 显示全部楼层
    学习spark的数据处理过程
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2018-8-15 14:18
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    6

    帖子

    33

    积分

    普通会员

    Rank: 2

    积分
    33
    发表于 2018-8-15 14:20:37 | 显示全部楼层
    想要学习spark
    ' l: J7 Y6 d) a2 Q- T0 U4 i
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018-8-15 17:37
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    3

    帖子

    14

    积分

    普通会员

    Rank: 2

    积分
    14
    发表于 2018-8-15 17:44:33 | 显示全部楼层
    正在学习spark
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2018-8-16 19:31
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    15

    积分

    普通会员

    Rank: 2

    积分
    15
    发表于 2018-8-16 19:33:11 | 显示全部楼层
    好资料,。
    回复

    使用道具 举报

  • TA的每日心情
    无聊
    2018-8-18 13:06
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    13

    积分

    普通会员

    Rank: 2

    积分
    13
    发表于 2018-8-18 13:08:35 | 显示全部楼层
    ojoj真不错咔咔咔咔咔咔扩扩
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2024-5-5 19:52 , Processed in 0.087289 second(s), 41 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表