|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《Spark大数据处理:技术、应用与性能优化》1 A5 O ]; S8 ]
java电子书推荐理由:这是一本依据最新技术版本,系统、全面、详细讲解Spark的著作,作者结合自己在微软和IBM的实践经验和对Spark源代码的研究撰写而成。首先从技术层面讲解了Spark的体系结构、工作机制、安装与部署、开发环境搭建、计算模型、Benchmark、BDAS等内容;然后从应用角度讲解了一些简单的、有代表性的案例;最后对Spark的性能优化进行了探讨。& E; k9 t6 b6 R' p3 _: F# `; M1 x/ P
4 Z. C" J/ j' X$ |. |
! O+ o, o$ O! S4 l! ]
作者:高彦杰 著, k% r9 m1 |8 x9 b
出版社:机械工业出版社
* `) A* l* n/ K/ s出版时间:2014年11月 + m; [8 C) L' ^8 O
" ?% _) B$ [/ n) z& H9 k. l3 R9 _
* W( y! }4 U: l' R. |) E6 t
o- k2 _9 x7 t, L5 ~! C8 ?
& \* @3 h7 p, z1 h; L8 j" [0 N6 }6 G: H C8 I; P
java电子书目录:+ ?% G# V0 }8 L; c$ L, S5 N: b% [
0 c; T% Z ], {
c# N( l Z& k) ^6 h$ V$ S' t第1章 Spark简介9 \: I/ Y. n3 Y% c5 s5 G2 m" |
1.1 Spark是什么
6 n( X2 x- |, r: l; Z1.2 Spark生态系统
8 F* o* X: k( ^1.3 Spark架构
8 }! L$ x) t' j) j1.4 Spark分布式架构与单机多核架构的异同
0 P5 r" h# r. k8 [1 Z1.5 Spark的企业级应用
3 ` q: f& q" P1.5.1 Spark在Amazon中的应用1 ?0 N5 U) b z1 Y* |
1.5.2 Spark在Yahoo!的应用; o& e% ~1 k7 L
1.5.3 Spark在西班牙电信的应用
! [& Q. `4 T, a6 m/ F$ E0 ?3 ?1.5.4 Spark在淘宝的应用
* V! M# n }. J" s3 G$ m1 ?3 D1.6 本章小结
r# O7 E; {( E1 R第2章 Spark集群的安装与部署
U" x" U. r4 e+ l0 M5 {2.1 Spark的安装与部署
$ I7 F6 _8 v0 ]) `" P9 ]2.1.1 在Linux集群上安装与配?( ` G5 v7 o/ ]1 L
2.1.2 在Windows上安装与配?3 ]% B5 w$ \) `% O; c. t$ L8 Y
2.2 Spark集群初试
" g* @- v; Q3 K% N6 a( Q0 ~1 {; N2.3 本章小结) K! i9 I# o" y2 ~1 r3 O/ \2 S
第3章 Spark计算模型4 |! K6 d1 E0 ~3 j7 G
3.1 Spark程序模型+ \0 q- |% p/ P; ~" U
3.2 弹性分布式数据集
`! m; q0 C4 H. G' X3.2.1 RDD简介2 A% x1 s( ?& \6 J; `0 A$ q9 K
3.2.2 RDD与分布式共享内存的异同( c+ O4 j0 _) n4 k) {
3.2.3 Spark的数据存储( S+ J$ u! _9 K$ ]7 L
3.3 Spark算子分类及功能- H: _& S" a4 M1 g0 u+ }2 }
3.3.1 Value型Transformation算子5 z" W! F& K9 Z
3.3.2 Key-Value型Transformation算子6 R0 n2 ?, E9 o( H' s4 N' H
3.3.3 Actions算子) F$ g: K w5 v* d
3.4 本章小结
( q) N2 f* r4 j: a) H第4章 Spark工作机制详解
2 L3 @# B6 H$ ~7 w4.1 Spark应用执行机制, \' I" S- U* U' `# {& L! B S; W( @
4.1.1 Spark执行机制总览
@: n) |% [6 o! M4.1.2 Spark应用的概念/ ^8 l& D. k# {# ?% M& e" x9 `9 ~/ ^
4.1.3 应用提交与执行方式
$ B" R+ N, R$ C0 r4.2 Spark调度与任务分配模块
' Y! z: m7 z* @) B; g: W, M4.2.1 Spark应用程序之间的调度7 X% |8 T9 S) |" n
4.2.2 Spark应用程序内Job的调度
! H4 d* s# M3 \( A1 L% Z8 u9 m0 x4.2.3 Stage和TaskSetManager调度方式' U/ x4 {6 Z, s9 E( ~# ]
4.2.4 Task调度' p5 D! [5 e: T6 W% G) C) @
4.3 Spark I/O机制7 p: v5 a7 q! O, b1 A
4.3.1 序列化
8 h, @6 |4 W8 |' @6 g4.3.2 压缩6 Z. U$ T9 T) y8 {+ I/ M
4.3.3 Spark块管理8 d" V+ E- m3 Q
4.4 Spark通信模块5 T: [( q# N- D8 k
4.4.1 通信框架
/ ?( P1 q- _9 K2 Y3 K' }4.4.2 Client、Master和Worker间的通信" j5 a# j% f9 ~4 V" b' F3 b
4.5 容错机制
" U! H( K5 ~+ m4 I! g, x4.5.1 Lineage机制+ v- T8 m5 d. D9 e7 P6 H
4.5.2 Checkpoint机制
' S4 B- g: m# {+ { g& z& Y4.6 Shuffle机制
" N0 I! f7 l' K& |1 V+ U9 ?1 H& f3 h4.7 本章小结! `" j) n/ m8 u# z, `+ ]
第5章 Spark开发环境配置及流程
, L: G7 P; n) W( J, Y' C5.1 Spark应用开发环境配置
. Y8 L$ q% \4 i8 o% i3 ~$ p0 J5.1.1 使用Intellij开发Spark程序% m2 j* H: R1 J
5.1.2 使用Eclipse开发Spark程序8 V/ f9 K. B. [
5.1.3 使用SBT构建Spark程序# y, }4 {- \) r a( y/ Y* x
5.1.4 使用Spark Shell开发运行Spark程序
9 N: c- R* s% ^: v& Z5.2 远程调试Spark程序
c7 o. X1 B) @1 y0 X2 H' `1 e5.3 Spark编译5 y5 E& C+ J3 l' m5 e. ^
5.4 配置Spark源码阅读环境
- l, d* \/ M/ R! [' \5 B5.5 本章小结' H+ h$ n/ F4 U
第6章 Spark编程实战+ A b% F9 X" p! e1 V* ~
6.1 Word% A( g8 |; ]: ]1 A
6.2 4 ]$ R, Q2 ~* l3 X
6.3 中位数
- r0 h, Q _( y8 k6.4 倒排索引
, v7 J& ^1 g2 e( l! S6.5 Coun
' A) u: Q* o9 I3 O6.6 倾斜连接# e) Q- _1 `1 V% Z& R. B& T0 c# m
6.7 股票趋势预测
1 P/ r9 I7 G2 q% o4 t6.8 本章小结
# @7 N: a+ K1 o; X0 G1 g1 P* }2 f, h+ {第7章 Benchmark使用详解
# x) v$ I6 n, p$ Q/ y6 a! B7.1 Benchmark简介2 P- s9 p) E% x5 O) a8 o
7.1.1 Intel Hibench与Berkeley BigData5 e F$ ~8 {0 @( {' Y
7.1.2 Hadoop Gr) d5 N, W' Q3 L3 A; _3 E% u6 T4 T4 v9 c
7.1.3 Bigbench、BigDataBenchmark与T
w$ n& y$ w8 }: ^- L# e7.1.4 其他Benc2 B: {- d7 [6 d' |% v; c
7.2 Benchmark的组成
1 b, d2 N' @, l. d7.2.1 数据集9 [$ R! U, n" j7 `* p
7.2.2 工作负载 z# S- G n. E, { @3 U, s
7.2.3 度量指标# R( ]4 o: x% Q) f6 {2 ^. e0 s
7.3 Benchmark的使用8 B1 `) }/ H" `! r' t$ G; K9 J0 A
7.3.1 使用Hi5 M8 K3 I9 R5 r% X1 a
7.3.2 使用T
& u0 X7 E' w' J2 C+ O E- U7.3.3 使用BigData
6 ?8 r! ?* m& F7 ^; x! [0 T7.4 本章小结) d+ g& u: m( z! M6 S/ m
第8章 BDAS简介) ?* J0 g6 x H: g; D) M) R
8.1 SQL on ; ^0 F! t: z$ j2 m0 G* x# g* {
8.1.1 使用Spark SQL的原因
5 z0 R! u7 s3 ~& ?8.1.2 Spark SQL架构分析! M8 {& T7 ]; @2 x- N, i/ V1 R( d
8.1.3 Shark简介" y# [7 k, p; ]7 X2 u
8.1.4 Hive on 0 h/ ~+ v2 A' j$ N6 P( Y# H
8.1.5 未来展望- M4 ~' I' M- O, Q& u* C. @
8.2 Spark Stre- K- a! k9 {8 }2 H9 v3 \7 d4 R
8.2.1 Spark Streaming简介
8 _. W3 t/ f2 Q$ y+ f) B8.2.2 Spark Streaming架构7 p+ p# j. J* H. X* o7 L
8.2.3 Spark Streaming原理剖析- d1 w r8 |9 Z r0 z2 D
8.2.4 Spark Streaming调优" z) {! Z% \0 ?* I+ D5 K
8.2.5 Spark Streaming 实例
2 s: Q! x) ^1 O" L6 S& `8.3 G
, j4 A) L1 g$ z& R) p8.3.1 GraphX简介
q+ ~7 }8 Y) x; ~ t/ Z8.3.2 GraphX的使用4 ^5 j. F ?, y3 V
8.3.3 GraphX架构2 H7 w0 ?: f9 T1 B
8.3.4 运行实例! i, k* o7 t( W) i' A! u
8.4 1 ?- Q" M9 S/ R- D0 F! E- U
8.4.1 MLlib简介
. [2 |6 _5 [7 }8.4.2 MLlib的数据存储7 x6 B: |4 ~% w: \ d$ d: j9 B, l
8.4.3 数据转换为向量(向量空间模型VSM)
/ R4 t4 y& Z6 h( ^" H; P+ T# ?8.4.4 MLlib中的聚类和分类4 E% k, g4 b$ ?/ d# I
8.4.5 算法应用实例# D) Q9 _6 N& m* f4 \
8.4.6 利用MLlib进行电影推荐$ e2 L4 p" Q9 T y
8.5 本章小结
5 t1 h4 z0 V2 v9 l1 J3 r/ L" L第9章 Spark性能调优
2 y# F+ v. X; g# |. V+ s9.1 配置参数
$ E6 v+ }9 V6 a) M* ^% P& g9.2 调优技巧
5 F3 s r3 R' ^1 [- d9.2.1 调度与分区优化2 t, @/ W, ]3 @% D
9.2.2 内存存储优化, Q1 V# i6 }. q: d3 L! Q" S
9.2.3 网络传输优化
5 D. R( u, C' s5 z* P% _& c c, ]9.2.4 序列化与压缩5 e6 \2 Y: y) f# F* E8 l* D
9.2.5 其他优化方法
2 t. \) e* k: ]" b) A7 r6 p- A9 |# K9.3 本章小结
6 c% a D5 u! P/ G" k6 i8 k8 u3 V( M
" y: M7 ?0 X/ H! W# W2 a8 w9 w9 C1 d电子书优惠获取地址:《Spark大数据处理:技术、应用与性能优化》
* C0 j* N! d' l. M7 I2 T( o- ]8 r7 b5 S8 i5 |
6 s/ L! ?2 X4 q' x7 F, q7 m! m; N# K2 D* e- Z" V4 D3 f: u
/ Z# T# d* `# a* W) u8 @# ~
|
|