java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 20519|回复: 89

[java电子书] Spark快速大数据分析(电子书) PDF 电子书 百度云 网盘下载

  [复制链接]
  • TA的每日心情
    开心
    2018-4-8 22:14
  • 签到天数: 1 天

    [LV.1]初学乍练

    1835

    主题

    1837

    帖子

    5517

    积分

    普通会员

    Rank: 2

    积分
    5517
    发表于 2018-7-3 20:32:00 | 显示全部楼层 |阅读模式
    java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark快速大数据分析(电子书)》3 ~' e6 W! d& G* g, _/ N
    java电子书推荐理由:Spark发者出品! 《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。 本书由Spark发者编写,可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。6 i. ?( `& Z% ^2 J3 l6 `! i
    4 E# ^# A+ u; q- S5 }+ K* d
    作者:卡劳 Holden Karau
    * K  W( }) B- w9 X出版社:人民邮电出版社1 w) x* B1 R6 o4 v# y
    出版时间:2015-09-01
    3 K: d8 V+ \$ \6 Z6 J书籍价格:0.00元
    ' }" c- v. i! a! ]; M8 ^  k9 A& n2 e" H
    + v  R( Z9 \, D9 j6 H: u
    7 S0 c/ y% O  Q8 `5 s# L' b) I; I

    / v6 @1 S, Z2 i8 z, J$ S. z4 Bjava电子书目录:
    8 c* ]0 k! V0 ^( r% Y; u第1章 Spark数据分析导论  1
    # u  O/ }: ^( v1 u$ K, Z. C! W1.1 Spark是什么  1
    % n2 J# `$ p% S1.2 一个大一统的软件栈  2# ~- w' g4 n7 s) D
    1.2.1 Spark Core  2
    $ n: f) ?  F+ b3 q1.2.2 Spark SQL  3
    - h: [8 C4 O7 p4 Y9 h1.2.3 Spark Streaming  3+ g! H; V7 U' r
    1.2.4 MLlib  3
    2 P2 f: Z- I% G- v: j1.2.5 GraphX  3
    7 j$ b) x7 W0 [" b; j* p1.2.6 集群管理器  4' ~  o5 M3 b! L5 j0 p5 x& p
    1.3 Spark的用户和用途  4  R# _$ p1 F3 V
    1.3.1 数据科学任务  4; [6 V5 m4 F) P4 K: J
    1.3.2 数据处理应用  5: e% Z* @! w0 |( h1 l, d' S
    1.4 Spark简史  54 y  L  y1 I# P4 {
    1.5 Spark的版本和发布  6
    # i- |  N, n6 K$ G1.6 Spark的存储层次  6; W/ i; F! Y: l
    第2章 Spark下载与入门  7; u8 `! J' O( F1 L
    2.1 下载Spark  73 i9 @. C9 ?0 v8 ^
    2.2 Spark中Python和Scala的shell  9
    - E- m& ^6 o8 p  K. e5 |  b5 R- u2.3 Spark 核心概念简介  12
    ' ]/ K4 F/ u/ D( U: q  y  v2.4 独立应用  14
    & R1 H/ D% j" G9 E2.4.1 初始化SparkContext  15, T0 R; l. I1 x# D) Z9 d3 u& Y/ Z& U
    2.4.2 构建独立应用  16
    ( ^7 ]" p6 Z8 j: _2.5 总结  19
    * F7 L/ A5 m' q/ Y8 O& l  a8 Y第3章 RDD编程  21# K  J; n3 I, ^, |0 F! B: J4 v5 K
    3.1 RDD基础  215 \& P& u# v2 ^9 y# a. g+ [
    3.2 创建RDD  23
    ! c: x' q  r5 [3 @" x) R+ d; `3.3 RDD操作  24
    % U) q$ Y& l; J% S# }3 u3.3.1 转化操作  246 ]! O9 x3 ?- `/ E$ N# @6 G, ^
    3.3.2 行动操作  269 H% t% ]4 g: u8 i& ~) G
    3.3.3 惰性求值  272 G, s0 G2 b9 h# J) J
    3.4 向Spark传递函数  27
    $ V6 I8 O  G7 ]) C! O. m1 R3.4.1 Python  27
    ' K9 K; g* K3 G3 o5 K3 v5 n% V3.4.2 Scala  28
    ; E1 t- n' w/ f" I' @3.4.3 Java  29
    3 x& q+ b$ ~: P1 Z7 o" j4 m3.5 常见的转化操作和行动操作  30; Q1 Q) C& V9 N, O* z5 W3 k
    3.5.1 基本RDD  30
    4 x5 _! i* A- O2 p* T; c/ d- R3.5.2 在不同RDD类型间转换  373 H! U" v: a3 B# E
    3.6 持久化( 缓存)  392 f- \& G8 @6 \) T3 y% l( E
    3.7 总结  40
    / H5 N  |( a- j& A第4章 键值对操作  41, N6 E9 i+ {' c/ ^9 F
    4.1 动机  416 Y( }& F) C- d- A/ V
    4.2 创建Pair RDD  42' c0 q. M" E) Q  z% t4 p
    4.3 Pair RDD的转化操作  42
    : Q2 D. G& j6 k( K4.3.1 聚合操作  451 _4 b5 C' T" }% H  l1 c$ ?
    4.3.2 数据分组  49
    2 R, n  W7 r3 N/ v! e# a4.3.3 连接  50" I  h$ v5 ~; b/ C8 \! v
    4.3.4 数据排序  51
    / `, v% P& d+ U9 k! a4.4 Pair RDD的行动操作  52
    + `' t9 E/ t6 A* [1 \6 c+ W4.5 数据分区(进阶)  52
    % x5 s) l- s( w# ~  e0 [4.5.1 获取RDD的分区方式  55( D: P6 X2 u' ]9 m7 C
    4.5.2 从分区中获益的操作  56
    % J+ |% y' q% Q1 _$ M& H: I4 @4.5.3 影响分区方式的操作  57
    * j3 e2 X; k1 z# i4.5.4 示例:PageRank  57
    ! t+ S- j3 P5 j# C! B4.5.5 自定义分区方式  592 p" M/ d" k* Q2 y0 T  q. B9 K
    4.6 总结  611 E( [3 l: w+ ^% D3 `3 V5 m$ w
    第5章 数据读取与保存  63, Q2 k+ ?# T1 J
    5.1 动机  63$ }  n  o7 P1 I0 ?7 @
    5.2 文件格式  64
    : W3 Y, @+ \3 @5.2.1 文本文件  64+ f+ f7 N5 }* ^3 p" P7 ^
    5.2.2 JSON  66( q" J# t- V) J% n& A- _( P3 A
    5.2.3 逗号分隔值与制表符分隔值  68
    4 J2 m# }1 G9 E5.2.4 SequenceFile  71( q# d6 f% T; H- }% L5 r
    5.2.5 对象文件  73, p  Z2 Y" ^" J4 Y$ S- }
    5.2.6 Hadoop输入输出格式  73
    % K) i/ F, a3 {/ ~& Q3 U5.2.7 文件压缩  77# r% V7 O1 y, w
    5.3 文件系统  788 v6 M/ _0 w, P7 N+ M* p! u1 O7 s
    5.3.1 本地/“常规”文件系统  789 a9 h$ H  L2 C6 S
    5.3.2 Amazon S3  78
    2 u! j! I5 q% b8 E: g$ p. F5.3.3 HDFS  79' y" V1 l) v7 P* D
    5.4 Spark SQL中的结构化数据  791 c) Z4 i7 ?  k7 }0 ~: }2 T. N$ m9 [+ Z
    5.4.1 Apache Hive  80
    1 ^& c# S/ m& {5.4.2 JSON  801 E. ^; [8 V( T  E0 W( O4 |9 w
    5.5 数据库  81
    + j3 Q; u& N3 P: W& J$ Z5.5.1 Java数据库连接  81
    : X- p3 \+ J3 H8 I5.5.2 Cassandra  82
    : c6 T" M: J6 n5.5.3 HBase  84
    4 ^! ~" X" w$ p* Z- x5.5.4 Elasticsearch  858 p0 ?% v" o2 M/ E; Y
    5.6 总结  863 i1 L# k' U/ G* L. B; Q5 y( D, U
    第6章 Spark编程进阶  87; k. v5 }7 c0 \' o) Z( O0 k6 J
    6.1 简介  87% j% e( H( s" l/ ~. L) T
    6.2 累加器  88
    , z- S4 H# M9 y4 S0 F' _6.2.1 累加器与容错性  90
    3 ~9 a+ A$ ?2 P6.2.2 自定义累加器  91; ]/ ?$ E4 s/ [7 D* \
    6.3 广播变量  91
    , b" {- T/ R/ y! i. V+ F( V. ?6.4 基于分区进行操作  94
    ' i: J: S" H1 s: w6.5 与外部程序间的管道  96. Y  c- M8 s( B$ l0 E# F
    6.6 数值RDD 的操作  99* C0 i( a6 l2 P- D
    6.7 总结  100
    % D1 Y4 N3 P5 H0 p! j4 b6 A/ p第7章 在集群上运行Spark  101
    : T& T  z, v% _/ [. R/ [7.1 简介  101
    ( ^# B  ^' ?* A/ h( R6 {3 L- n( Y5 k7.2 Spark运行时架构  101
    3 C1 Q6 L. W. O: _; u7.2.1 驱动器节点  1025 G/ F# I  i) ]) H3 l& Q
    7.2.2 执行器节点  1038 J8 l. H/ d) r5 F5 ?" ^! K
    7.2.3 集群管理器  103  j" F4 x' c( o
    7.2.4 启动一个程序  1040 B) K/ e% |1 i3 F; R( m, n$ b. S
    7.2.5 小结  104, ^0 P) _4 p7 j; J" K5 X: Q
    7.3 使用spark-submit 部署应用  105
    $ E- r" Z: q6 a" j4 b7.4 打包代码与依赖  107
    4 _9 \0 s" @! V8 h; r7.4.1 使用Maven构建的用Java编写的Spark应用  108
    3 E5 E& b8 _& W% w: \7.4.2 使用sbt构建的用Scala编写的Spark应用  1092 p3 W8 N" L; F/ z% p; X4 R* W
    7.4.3 依赖冲突   111
    # Q- [$ k7 ]3 Z( P1 c$ I1 D7.5 Spark应用内与应用间调度  111$ F  g& ]9 m' M6 b6 S4 l& d& C
    7.6 集群管理器  1129 C8 q5 a% L: U, }; G
    7.6.1 独立集群管理器  1127 D  u" g+ W+ s6 i  x* c" F
    7.6.2 Hadoop YARN  115
    6 N) X1 r1 b% G8 q/ \# T; k7.6.3 Apache Mesos  116
    ; P( V$ `7 W) I) i" E* H7.6.4 Amazon EC2  117
    ) e, R5 C& l+ I# `/ n7.7 选择合适的集群管理器  120
      w3 _; v$ C5 G7.8 总结  1214 J6 f3 D  t: A; N& n
    第8章 Spark调优与调试  123
    : I$ {: t+ E' i8.1 使用SparkConf配置Spark  123$ x! R6 j  b$ h2 ~" l, p
    8.2 Spark执行的组成部分:作业、任务和步骤  1272 Z4 O; s# e6 r% e) a
    8.3 查找信息  131
    8 L" \* f2 D& I& D8 z% e8.3.1 Spark网页用户界面  1312 z  x: L! Z3 D
    8.3.2 驱动器进程和执行器进程的日志  134
    , r5 r% P0 a$ p  g8 |8.4 关键性能考量  135
    ! C# E) ]$ K0 s8 u2 `8.4.1 并行度  135
    ( g0 l5 w0 r' r: z4 ]1 ?1 g5 y8.4.2 序列化格式  136
    + F2 @0 D& R, u* o' J: u) \8.4.3 内存管理  1377 R4 N& M2 K3 J; o1 \* e9 S: S5 @9 ^
    8.4.4 硬件供给  138; A; T  T( R! `7 q: w" u7 Q2 t
    8.5 总结  139
    8 l( b( s3 K( H1 d, C5 Y  k7 L第9章 Spark SQL  1412 r/ H9 C0 y. R1 V5 c
    9.1 连接Spark SQL  142
    8 v2 P5 P& l, }  D6 M9.2 在应用中使用Spark SQL  144& a0 ]3 l2 i! r' L
    9.2.1 初始化Spark SQL  144
    * y# f5 {6 {0 P: ~1 \% [9 _9.2.2 基本查询示例  145& m  d7 C, x3 M
    9.2.3 SchemaRDD  146
    ! u3 r- T3 o: P- Q3 M3 V  w. M9.2.4 缓存  148
    * c9 T  g, o& r. F9.3 读取和存储数据  149
    2 g1 i$ e; a# c! F5 q5 e) y9.3.1 Apache Hive  149/ x0 S" k4 y( o! t& q( ]) N
    9.3.2 Parquet  150
    3 _# @6 y+ I! q) l1 j6 K6 D+ d9.3.3 JSON  150
    + c1 k% N- i) g" Y2 F9.3.4 基于RDD  152$ o7 P# g& u% ?. j
    9.4 JDBC/ODBC服务器  1538 a4 [& m- t( j, x. w& M
    9.4.1 使用Beeline  1555 U5 }, B/ U. h! Q8 R& ^( _0 e/ s
    9.4.2 长生命周期的表与查询  156' E/ J8 [5 F1 m; T- l/ g
    9.5 用户自定义函数  156
    1 `; \& P8 q6 p: Y7 ^! t  m9.5.1 Spark SQL UDF  156
    " g* {5 q+ o0 z: L9.5.2 Hive UDF  157
    0 h! f  q& l  g! d2 B5 r$ v: F' k2 g9.6 Spark SQL性能  158
    * D. H; R, [, `3 e+ @' B  k9.7 总结  1590 K1 X( u! B' ?5 H+ ~: a
    第10章 Spark Streaming  161
    % B! a3 S* ?! B0 ~/ J0 u7 S10.1 一个简单的例子  162, `2 o$ X' r1 h2 S7 U1 p+ ^3 N
    10.2 架构与抽象  164
    ( a- T& ^0 f* g10.3 转化操作  1671 \7 F9 M& E" G- ~! R+ x! D
    10.3.1 无状态转化操作  167
    6 j- l* @2 e# X! C# C4 K10.3.2 有状态转化操作  169
    3 m+ U' Q' D7 w$ ]10.4 输出操作  1730 N' j4 c( m  |' `  H+ C# h
    10.5 输入源  1751 k+ N' z1 g3 j# h' i
    10.5.1 核心数据源  175* O9 @, o6 G, E  Y; }2 c9 J8 y
    10.5.2 附加数据源  176
    8 \3 l9 V5 V7 x) `5 C5 B10.5.3 多数据源与集群规模  179
    % i+ p2 G% N+ w: _6 X10.6 24/7不间断运行  180
    7 x! n1 j( m; X1 i10.6.1 检查点机制  1809 H5 G3 c4 i) D4 G
    10.6.2 驱动器程序容错  181$ M! _! Q0 `1 a' X2 F. v$ u
    10.6.3 工作节点容错  182/ s( d, G6 J' O. p' Q: a
    10.6.4 接收器容错  182
    4 f' I+ ?) ?* Y/ Z10.6.5 处理保证  183- l. C) ~  U& u. i( y; H
    10.7 Streaming用户界面  183$ C% n7 ^- V! H& A. l
    10.8 性能考量  1845 b) r8 L2 h' L6 u" p3 v$ e) o
    10.8.1 批次和窗口大小  184. R" K& F8 H* K0 R( O) {! t: t
    10.8.2 并行度  184
    9 B. {1 |: F( ?10.8.3 垃圾回收和内存使用  1858 |$ O$ j+ N9 S
    10.9 总结  185
    , t$ m: P; F; c7 @第11章 基于MLlib的机器学习  187% U/ M6 L# T, s. B  c( T7 M
    11.1 概述  187
    : d, ?$ v$ `6 _8 [11.2 系统要求  1882 o% D5 \6 {+ ?) e4 f
    11.3 机器学习基础  1893 f# Z5 R% G. ^- G
    11.4 数据类型  192
    - K* [; E# I. q! m$ N4 `11.5 算法  194
    ( p) h! Q+ H" S. R  r11.5.1 特征提取  194
    5 ?5 j2 E! o& |) q; h7 U7 U) |11.5.2 统计  196" ?; O/ W9 _1 n0 v6 {& p
    11.5.3 分类与回归  1971 l2 S) B% S1 j6 g7 Q2 H  U6 ^8 a; n
    11.5.4 聚类  202+ o1 \4 [; b. G2 M  k1 x
    11.5.5 协同过滤与推荐  203* _/ Y; W2 E& _
    11.5.6 降维  2042 h% |2 b7 @( e( S+ M) g; m
    11.5.7 模型评估  2069 P8 i0 U4 X8 a4 [5 M( C! ~3 P
    11.6 一些提示与性能考量  2061 B$ b% N2 M; L: n8 k+ A, T
    11.6.1 准备特征  206  n3 t4 v# U, {) n& {0 Y
    11.6.2 配置算法  207) t& J0 k, y9 a4 {: X' F# N
    11.6.3 缓存RDD以重复使用  207; }* ^/ g! I; Q$ y
    11.6.4 识别稀疏程度  207: O0 x: e' s; t5 I# m' A
    11.6.5 并行度  2079 `# Y/ p. {1 z- k: K
    11.7 流水线API  208& {0 z% y# e; V* i7 Y
    11.8 总结  2099 C* D3 L9 l/ ~* B- S6 K
    作者简介  210! U+ z6 F! g3 a( c
    封面介绍  210  @2 V; l) c& O: C2 u7 v+ g  P7 [3 Z

    9 @( T3 X6 P6 l( @# J- pJava资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark快速大数据分析(电子书)  PDF 高清 电子书 百度云.rar【密码回帖可见】
    * I# w2 G3 F& ]5 c* {4 @/ ?  P
    游客,如果您要查看本帖隐藏内容请回复
    / k2 Y8 x! a3 S- ~, w
    ! [& c: v. [  O

    8 r  [' O5 u( b' ?7 w
    + E  a1 }8 H' [* _+ h) G( I3 T
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2018-7-25 10:19
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    12

    积分

    普通会员

    Rank: 2

    积分
    12
    发表于 2018-7-25 10:20:35 | 显示全部楼层
    学习学习spark技术。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2018-7-30 23:54
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    12

    积分

    普通会员

    Rank: 2

    积分
    12
    发表于 2018-7-30 23:57:38 | 显示全部楼层
    新手入门学习,谢谢楼主共享
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018-8-9 13:40
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    11

    积分

    普通会员

    Rank: 2

    积分
    11
    发表于 2018-8-9 13:41:49 | 显示全部楼层
    感谢您的分享一定有帮助的
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2018-8-9 13:56
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    4

    帖子

    16

    积分

    普通会员

    Rank: 2

    积分
    16
    发表于 2018-8-9 14:08:37 | 显示全部楼层
    QQ
    回复

    使用道具 举报

  • TA的每日心情
    擦汗
    2018-8-15 14:18
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    6

    帖子

    33

    积分

    普通会员

    Rank: 2

    积分
    33
    发表于 2018-8-14 19:10:25 | 显示全部楼层
    学习spark的数据处理过程
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2018-8-15 14:18
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    6

    帖子

    33

    积分

    普通会员

    Rank: 2

    积分
    33
    发表于 2018-8-15 14:20:37 | 显示全部楼层
    想要学习spark
    ( T7 n2 @. z7 \
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018-8-15 17:37
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    3

    帖子

    14

    积分

    普通会员

    Rank: 2

    积分
    14
    发表于 2018-8-15 17:44:33 | 显示全部楼层
    正在学习spark
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2018-8-16 19:31
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    15

    积分

    普通会员

    Rank: 2

    积分
    15
    发表于 2018-8-16 19:33:11 | 显示全部楼层
    好资料,。
    回复

    使用道具 举报

  • TA的每日心情
    无聊
    2018-8-18 13:06
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    2

    帖子

    13

    积分

    普通会员

    Rank: 2

    积分
    13
    发表于 2018-8-18 13:08:35 | 显示全部楼层
    ojoj真不错咔咔咔咔咔咔扩扩
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2024-4-26 03:09 , Processed in 0.657079 second(s), 35 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表