TA的每日心情 | 开心 2018-4-8 22:14 |
---|
签到天数: 1 天 [LV.1]初学乍练
普通会员
- 积分
- 5517
|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark快速大数据分析(电子书)》2 B3 z8 ^- R* O# |% E/ s' v
java电子书推荐理由:Spark发者出品! 《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。 本书由Spark发者编写,可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。
# P+ z- t; b8 T0 L6 b, S, c
: _/ k$ {0 e1 R8 s# O# e1 P作者:卡劳 Holden Karau
8 z9 A$ y. t+ ~2 ^6 o$ w出版社:人民邮电出版社
C8 @4 n* j; Y Y6 Z出版时间:2015-09-01 : H. ~" y6 A4 J" Q% X. B
书籍价格:0.00元
: p% n& Z: _: n/ a' W6 L1 E7 H! G1 H# L! m; ?2 b5 d
/ l2 ]; l: e0 ~6 w
7 L# r2 j$ W; {2 U1 _
z, I. y4 X4 g! t5 k7 _$ ^java电子书目录:$ d+ s+ y0 I& {* ~
第1章 Spark数据分析导论 1
# O" i9 M0 {2 E: b1.1 Spark是什么 1: c+ O- l& m: Q+ H6 w0 d( y! g
1.2 一个大一统的软件栈 2
% D$ {4 k, [* u& O( g8 P; C/ C& G: w1.2.1 Spark Core 2
6 I$ o" B3 b0 \' Y# e1.2.2 Spark SQL 32 Y# `( a9 G1 O) W; [5 G1 u {% G6 Q
1.2.3 Spark Streaming 3' P. q) e) S4 h. d4 ?7 S
1.2.4 MLlib 3
: g2 W2 O+ g7 t7 P0 L1.2.5 GraphX 3
6 d$ U' P8 ~( h8 @ d1.2.6 集群管理器 4! D; O; u9 y8 |2 t# M
1.3 Spark的用户和用途 4
# f) y' x' A4 ^; D$ Q7 K1.3.1 数据科学任务 4
1 k& ~. ]9 o5 W8 j$ g, Y3 @1.3.2 数据处理应用 5 J$ C: W7 f; C0 p
1.4 Spark简史 5
1 S* e: b% `; J: w- S1.5 Spark的版本和发布 6
% N! p0 N: d2 \1 S) ~* L- n( v6 ]! @1.6 Spark的存储层次 6
; d' a3 i7 z( h/ t+ N第2章 Spark下载与入门 7
2 p7 z ~' O+ }% ?2.1 下载Spark 7
% ?/ T4 a; U# q: ~# |2.2 Spark中Python和Scala的shell 9; T1 v6 V/ b8 J( W/ B& z
2.3 Spark 核心概念简介 12
" i9 H) m" `$ ]. ]7 y5 b% c2.4 独立应用 14
7 ^0 G6 ]$ V7 Y9 D% J6 k4 c2.4.1 初始化SparkContext 15
- | D2 e$ j! k* l. U8 a' \: ?2.4.2 构建独立应用 16
. ^+ A5 W6 @# W: p2 Q' X" c5 O. Q2.5 总结 19
, z/ _3 ?; |2 R* h5 }% E% W第3章 RDD编程 21
9 c( A6 F0 {% U. a5 _8 F3.1 RDD基础 213 V8 H- O) Q5 J' A* x
3.2 创建RDD 233 R* A8 P4 S& w+ p6 x
3.3 RDD操作 24
7 `5 h4 o/ S5 V' k7 Y3.3.1 转化操作 245 |' k% g7 m2 a5 U+ z2 f
3.3.2 行动操作 26
# F4 _" l" Q# p& _6 J5 _& B3.3.3 惰性求值 27
$ S! h3 f: t8 }3.4 向Spark传递函数 273 q$ H! {6 v% k, ]# X' Z
3.4.1 Python 276 K4 \) G7 N) g1 M' ^0 S
3.4.2 Scala 28( L+ Z8 |' p0 h- b, M
3.4.3 Java 29 X8 I0 D3 q/ d$ @6 P
3.5 常见的转化操作和行动操作 309 S4 `" q5 N% V6 \2 g# u) u3 ]7 W& z% ?" L
3.5.1 基本RDD 30
& l7 ^- `. |6 f+ j8 b3.5.2 在不同RDD类型间转换 376 D u# Y. o" z+ M( _3 G+ `
3.6 持久化( 缓存) 396 n. e f4 j4 g H
3.7 总结 400 e/ j! U" s1 z2 ^% n- O: k2 Z
第4章 键值对操作 41
8 c6 E. Y; f# b2 H3 c' s5 a4.1 动机 41
4 y! ~) V9 O0 Y8 ?; E" i4.2 创建Pair RDD 42
& n* g' U6 e% @$ X4 D/ {+ X4.3 Pair RDD的转化操作 429 V8 T% F+ R- p3 G; X4 s
4.3.1 聚合操作 45
% }" u- f8 i3 v) @4 n; J4.3.2 数据分组 49
" ~! q* i! d' l, T4.3.3 连接 50! S: p0 W w' {2 P; u
4.3.4 数据排序 51
' ~/ G2 I* t: Z# N; u H4.4 Pair RDD的行动操作 52
' z" I3 b) O8 Q& J! D4.5 数据分区(进阶) 52
% P0 \( `5 s6 Y U6 f8 l' ~) Y4.5.1 获取RDD的分区方式 558 N( R+ B P: q3 G: z$ I' Q9 l
4.5.2 从分区中获益的操作 56+ {: W* i F/ H' i6 @- t, g
4.5.3 影响分区方式的操作 57
% r+ K0 ^( k# _0 d/ h V4.5.4 示例:PageRank 57# H1 ^1 d* v6 L2 a
4.5.5 自定义分区方式 59: ?* X# ~' z; T* l, n
4.6 总结 61
u Y; W. s$ ]% @$ y7 ~第5章 数据读取与保存 63+ ^0 Y2 f3 e- b8 }: v
5.1 动机 631 G5 U, l: q3 u; p' f {$ X
5.2 文件格式 64/ Z0 I' b/ m3 e7 p( m+ z
5.2.1 文本文件 64
& T/ J, t% i3 ] C+ h5.2.2 JSON 66
* Z Y6 T9 {7 x: f5.2.3 逗号分隔值与制表符分隔值 68( d" S* v0 [, ^) c: v1 P5 h
5.2.4 SequenceFile 71+ K( u, R; Z/ a# v# V+ C( l
5.2.5 对象文件 73
5 A% K3 H i! Y+ o9 ^: t! q, n8 p5.2.6 Hadoop输入输出格式 73, |# Z: j; h7 r
5.2.7 文件压缩 77' f* a. P4 a6 q! F- W7 ^) J9 ^* @" }
5.3 文件系统 78
% B% R9 ~0 m: ?2 k4 g' I. D5.3.1 本地/“常规”文件系统 78
3 M, n' K# @+ f) R: _5.3.2 Amazon S3 786 J4 Z6 T8 H* C# O' @
5.3.3 HDFS 790 c) f- I' S8 M, `( Q
5.4 Spark SQL中的结构化数据 79
! P' Y. m1 p1 \) G- j# ^1 \$ v5.4.1 Apache Hive 80
" |5 G/ K. Y+ J5 O5.4.2 JSON 80( ?; T" ]6 f; _9 k" j
5.5 数据库 81
* V) h" V1 K0 [# Q) w5.5.1 Java数据库连接 81$ ?! Q2 T& O$ u" U& c; H/ z
5.5.2 Cassandra 82
5 K& v& a' Y! ]0 @* C, W5.5.3 HBase 84. M4 ]' S9 f9 H/ n. ]8 }; @ i
5.5.4 Elasticsearch 85
4 q8 O7 z) Y+ h5.6 总结 86
/ b4 z" v" `- X% h* T1 e0 G) i第6章 Spark编程进阶 87
, _& g4 b6 ]: N' i9 b% m9 K6.1 简介 87, O/ T. g# Z' b# s* ?8 I
6.2 累加器 88
& T Z; g* I4 `0 u8 `7 K6.2.1 累加器与容错性 90' X$ S0 {7 n: w
6.2.2 自定义累加器 91( {! C7 q$ Q- O: y9 x+ N
6.3 广播变量 91
8 w# n; x( u: y A6.4 基于分区进行操作 94+ n4 L: f# t$ k* @7 _! R, b
6.5 与外部程序间的管道 969 A8 R7 W! b s; E( Y& M( ^
6.6 数值RDD 的操作 99
9 T" S" Y) {4 L6 T1 q+ `' A6.7 总结 1004 B, y! l3 |) ~! e' _0 [0 `
第7章 在集群上运行Spark 101
( S3 D0 M) R5 M3 f) p4 T# H7.1 简介 101; e7 D; A! ^/ b
7.2 Spark运行时架构 101) U( C( _, u/ P* z. J7 m3 q
7.2.1 驱动器节点 102
: T5 Y f: S; g7.2.2 执行器节点 103# J. T& Z& S$ M7 R
7.2.3 集群管理器 103
6 s! m% A) K- P' B' A7.2.4 启动一个程序 104, ~" \* S& G' S& c9 O
7.2.5 小结 104
+ j4 E9 d$ ]) j8 U" L3 L7.3 使用spark-submit 部署应用 105% @ {9 e9 S; E5 B- N0 F+ T" B' B
7.4 打包代码与依赖 107
/ e W+ a* z& _/ W, }7.4.1 使用Maven构建的用Java编写的Spark应用 108
4 \% N% [( f) @, f7.4.2 使用sbt构建的用Scala编写的Spark应用 109
. |& T8 C- E1 p2 @+ D7.4.3 依赖冲突 111/ y- l2 X% h ~! B! Y" @9 t8 r
7.5 Spark应用内与应用间调度 111
' j; E( x% \! m3 r. n7.6 集群管理器 1127 Y, W/ u+ Y# j% D
7.6.1 独立集群管理器 1127 h$ ]" s3 y, B- I& Z9 J2 d
7.6.2 Hadoop YARN 115
4 ^5 L. Z& M5 r- Y* h* l7.6.3 Apache Mesos 1166 m7 A: V/ i& _' T! X5 C- s
7.6.4 Amazon EC2 117" v3 T6 R, E8 y6 _; `1 a
7.7 选择合适的集群管理器 120, l% ?4 [8 ]: P2 O p
7.8 总结 121$ D# k, D/ D- w( J
第8章 Spark调优与调试 1232 C& H6 _6 i( M$ e; [0 [
8.1 使用SparkConf配置Spark 123, E& a* ^- c2 U$ Z2 q# v% |- q
8.2 Spark执行的组成部分:作业、任务和步骤 127
1 u" r) L/ P/ Z" F8.3 查找信息 131) Q2 `1 r' q+ h4 |* p1 e6 d" i
8.3.1 Spark网页用户界面 131
' z" q% W% Q2 K0 F/ v/ Z( g8.3.2 驱动器进程和执行器进程的日志 134
' D$ |% n6 M5 M8.4 关键性能考量 135
- X c% o0 ]* J: T+ M0 F8.4.1 并行度 135* J6 g- v2 k- R H
8.4.2 序列化格式 1360 n E0 \8 m) D! W! c' O3 v9 {$ K
8.4.3 内存管理 137: j' N7 L K% {, D9 F/ ^7 s
8.4.4 硬件供给 138
% [7 ~0 e8 Q% z" z" E, i- h8.5 总结 139
! f5 @7 q; Y% B/ n) Y% h' y8 A第9章 Spark SQL 1414 P3 U3 h; E! F# I- m i% E
9.1 连接Spark SQL 142
1 [* l* `' d' s2 e6 ]9.2 在应用中使用Spark SQL 1440 U# ?" l) R' s( I! {( q
9.2.1 初始化Spark SQL 144
/ h. X, ?3 j( H6 U6 J9.2.2 基本查询示例 145
0 d. E* K/ e5 L: `. w B9 z5 Z9.2.3 SchemaRDD 146
8 i; P. ~4 W6 I4 `9.2.4 缓存 148% Z$ x# K( {5 r3 C
9.3 读取和存储数据 149 q3 z0 B# b+ r! P2 |2 S
9.3.1 Apache Hive 149
0 T1 i! @) U* ^ A: J e. T9.3.2 Parquet 150' V( x1 x8 \ t" Z! \
9.3.3 JSON 150
. h% T R5 Q% T9.3.4 基于RDD 152
+ s4 x4 M; N' \9.4 JDBC/ODBC服务器 153
1 V# k; j# A' F" ? ~1 P c9.4.1 使用Beeline 155
1 R0 o+ k8 P6 X1 _6 {$ I; Q4 ^: i9.4.2 长生命周期的表与查询 156
. x/ H% |( f1 |4 I9.5 用户自定义函数 156
. [. d2 M2 Z# \% E j& O+ H* |; U3 m) @9.5.1 Spark SQL UDF 156
' s: a: j, n. m1 i9.5.2 Hive UDF 157
; w6 `) O1 w, L( M0 q3 d" \9 W0 `9.6 Spark SQL性能 158
9 H2 `# b; {$ }4 ~" o$ r9 H; H9.7 总结 159) L U' o3 {( l: F* N
第10章 Spark Streaming 1611 P' t: F! T9 a V m; j# u
10.1 一个简单的例子 162
# B: D7 O2 v$ Q0 r3 A- S$ y+ n10.2 架构与抽象 164
" K1 z0 M: ~! F6 b1 b1 e2 C7 U10.3 转化操作 167, j8 P- k' {: p9 C& j1 ` `
10.3.1 无状态转化操作 167
4 T) O' ~ L" q8 v& r6 v10.3.2 有状态转化操作 169
4 \! j' z0 ]$ r$ W10.4 输出操作 173
6 Z5 c5 e" n8 X+ I7 p10.5 输入源 1757 S. H1 }1 z: B3 c& n$ ?+ A9 u
10.5.1 核心数据源 1758 U0 N& Z4 N3 b4 i' d( S4 U
10.5.2 附加数据源 176
) b9 E* M/ y" F0 w10.5.3 多数据源与集群规模 179
2 V0 m# l7 g0 R" i/ m1 e& V10.6 24/7不间断运行 180
: ^4 R' b0 ^$ Z* y! m10.6.1 检查点机制 180
! h: Z2 W5 O& I3 M10.6.2 驱动器程序容错 181
3 u& d3 P" n- j. X; h7 L2 v10.6.3 工作节点容错 182
2 R4 N' }* H+ b0 D10.6.4 接收器容错 1823 f h. g! {8 s9 o f
10.6.5 处理保证 183. P+ g2 d1 v+ J8 b% u3 C6 p2 q
10.7 Streaming用户界面 183
6 y" c0 d! Z" Y; b$ @10.8 性能考量 184* y( {3 U- e; z" _% T
10.8.1 批次和窗口大小 184
; ?6 P( J; C; v3 _10.8.2 并行度 184. _1 W( o4 t6 ?
10.8.3 垃圾回收和内存使用 185
9 i( s7 a" X6 N6 X8 r10.9 总结 185( l6 I5 o7 w) U- R$ l) s d
第11章 基于MLlib的机器学习 187: W6 C6 j V M {4 @# _4 \0 n
11.1 概述 187
9 G8 H& c/ L( m) [11.2 系统要求 188
) u4 u0 j& Y+ R- t6 |5 ?9 \$ t0 G) @11.3 机器学习基础 189: e; i: t" w7 X
11.4 数据类型 1921 @8 ^: [: t$ X( h& {' c" Y# D" V
11.5 算法 194
) Q; Q% K4 x8 L5 [- t11.5.1 特征提取 194
& U+ ^ m" k: B5 Z2 @6 b: |6 M11.5.2 统计 196
; d! ~9 z% x7 q1 E11.5.3 分类与回归 197
. F# `3 }, }( ^# F9 A8 y11.5.4 聚类 202$ _: ?& T+ h" Z% n$ [$ Q" d
11.5.5 协同过滤与推荐 203 o- [* q5 }4 e+ A1 y# n$ ~
11.5.6 降维 204, S: C( m0 b8 `
11.5.7 模型评估 206
7 N! C$ @& U: x6 o8 P: m8 W11.6 一些提示与性能考量 206
% v! L, q% q1 Z5 X' w8 ?+ i11.6.1 准备特征 2066 r9 v4 @) t' x8 N1 M' G" P8 Y4 t! X3 [
11.6.2 配置算法 207
7 z. Z, }' x/ ]- c! @11.6.3 缓存RDD以重复使用 207
; e0 [) Z! | ^0 a$ X+ b0 T11.6.4 识别稀疏程度 2071 x+ }) o4 D0 H9 C) F
11.6.5 并行度 207
# G9 e* y `' W% `$ a11.7 流水线API 208
: |# D8 \4 S3 z' t11.8 总结 209) m* r; Z6 R- P2 A
作者简介 210
: |- S0 t7 f" ^$ t封面介绍 210
) _4 S" G9 H7 _8 L+ a- i, a, H+ Q# O1 S$ o5 j/ @* }
Java资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark快速大数据分析(电子书) PDF 高清 电子书 百度云.rar【密码回帖可见】( }0 m- ^( K( s; f/ N2 [* e; V
3 ]9 p) Y$ Q7 W1 D6 I7 d( Y( J5 R% }
@7 `+ I$ d' a$ o( x- y( g
/ M) t7 ^& s' z" g$ K0 j3 V; b ] |
|