TA的每日心情 | 开心 2018-4-8 22:14 |
---|
签到天数: 1 天 [LV.1]初学乍练
普通会员
- 积分
- 5517
|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark快速大数据分析(电子书)》3 ~' e6 W! d& G* g, _/ N
java电子书推荐理由:Spark发者出品! 《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。 本书由Spark发者编写,可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。6 i. ?( `& Z% ^2 J3 l6 `! i
4 E# ^# A+ u; q- S5 }+ K* d
作者:卡劳 Holden Karau
* K W( }) B- w9 X出版社:人民邮电出版社1 w) x* B1 R6 o4 v# y
出版时间:2015-09-01
3 K: d8 V+ \$ \6 Z6 J书籍价格:0.00元
' }" c- v. i! a! ]; M8 ^ k9 A& n2 e" H
+ v R( Z9 \, D9 j6 H: u
7 S0 c/ y% O Q8 `5 s# L' b) I; I
/ v6 @1 S, Z2 i8 z, J$ S. z4 Bjava电子书目录:
8 c* ]0 k! V0 ^( r% Y; u第1章 Spark数据分析导论 1
# u O/ }: ^( v1 u$ K, Z. C! W1.1 Spark是什么 1
% n2 J# `$ p% S1.2 一个大一统的软件栈 2# ~- w' g4 n7 s) D
1.2.1 Spark Core 2
$ n: f) ? F+ b3 q1.2.2 Spark SQL 3
- h: [8 C4 O7 p4 Y9 h1.2.3 Spark Streaming 3+ g! H; V7 U' r
1.2.4 MLlib 3
2 P2 f: Z- I% G- v: j1.2.5 GraphX 3
7 j$ b) x7 W0 [" b; j* p1.2.6 集群管理器 4' ~ o5 M3 b! L5 j0 p5 x& p
1.3 Spark的用户和用途 4 R# _$ p1 F3 V
1.3.1 数据科学任务 4; [6 V5 m4 F) P4 K: J
1.3.2 数据处理应用 5: e% Z* @! w0 |( h1 l, d' S
1.4 Spark简史 54 y L y1 I# P4 {
1.5 Spark的版本和发布 6
# i- | N, n6 K$ G1.6 Spark的存储层次 6; W/ i; F! Y: l
第2章 Spark下载与入门 7; u8 `! J' O( F1 L
2.1 下载Spark 73 i9 @. C9 ?0 v8 ^
2.2 Spark中Python和Scala的shell 9
- E- m& ^6 o8 p K. e5 | b5 R- u2.3 Spark 核心概念简介 12
' ]/ K4 F/ u/ D( U: q y v2.4 独立应用 14
& R1 H/ D% j" G9 E2.4.1 初始化SparkContext 15, T0 R; l. I1 x# D) Z9 d3 u& Y/ Z& U
2.4.2 构建独立应用 16
( ^7 ]" p6 Z8 j: _2.5 总结 19
* F7 L/ A5 m' q/ Y8 O& l a8 Y第3章 RDD编程 21# K J; n3 I, ^, |0 F! B: J4 v5 K
3.1 RDD基础 215 \& P& u# v2 ^9 y# a. g+ [
3.2 创建RDD 23
! c: x' q r5 [3 @" x) R+ d; `3.3 RDD操作 24
% U) q$ Y& l; J% S# }3 u3.3.1 转化操作 246 ]! O9 x3 ?- `/ E$ N# @6 G, ^
3.3.2 行动操作 269 H% t% ]4 g: u8 i& ~) G
3.3.3 惰性求值 272 G, s0 G2 b9 h# J) J
3.4 向Spark传递函数 27
$ V6 I8 O G7 ]) C! O. m1 R3.4.1 Python 27
' K9 K; g* K3 G3 o5 K3 v5 n% V3.4.2 Scala 28
; E1 t- n' w/ f" I' @3.4.3 Java 29
3 x& q+ b$ ~: P1 Z7 o" j4 m3.5 常见的转化操作和行动操作 30; Q1 Q) C& V9 N, O* z5 W3 k
3.5.1 基本RDD 30
4 x5 _! i* A- O2 p* T; c/ d- R3.5.2 在不同RDD类型间转换 373 H! U" v: a3 B# E
3.6 持久化( 缓存) 392 f- \& G8 @6 \) T3 y% l( E
3.7 总结 40
/ H5 N |( a- j& A第4章 键值对操作 41, N6 E9 i+ {' c/ ^9 F
4.1 动机 416 Y( }& F) C- d- A/ V
4.2 创建Pair RDD 42' c0 q. M" E) Q z% t4 p
4.3 Pair RDD的转化操作 42
: Q2 D. G& j6 k( K4.3.1 聚合操作 451 _4 b5 C' T" }% H l1 c$ ?
4.3.2 数据分组 49
2 R, n W7 r3 N/ v! e# a4.3.3 连接 50" I h$ v5 ~; b/ C8 \! v
4.3.4 数据排序 51
/ `, v% P& d+ U9 k! a4.4 Pair RDD的行动操作 52
+ `' t9 E/ t6 A* [1 \6 c+ W4.5 数据分区(进阶) 52
% x5 s) l- s( w# ~ e0 [4.5.1 获取RDD的分区方式 55( D: P6 X2 u' ]9 m7 C
4.5.2 从分区中获益的操作 56
% J+ |% y' q% Q1 _$ M& H: I4 @4.5.3 影响分区方式的操作 57
* j3 e2 X; k1 z# i4.5.4 示例:PageRank 57
! t+ S- j3 P5 j# C! B4.5.5 自定义分区方式 592 p" M/ d" k* Q2 y0 T q. B9 K
4.6 总结 611 E( [3 l: w+ ^% D3 `3 V5 m$ w
第5章 数据读取与保存 63, Q2 k+ ?# T1 J
5.1 动机 63$ } n o7 P1 I0 ?7 @
5.2 文件格式 64
: W3 Y, @+ \3 @5.2.1 文本文件 64+ f+ f7 N5 }* ^3 p" P7 ^
5.2.2 JSON 66( q" J# t- V) J% n& A- _( P3 A
5.2.3 逗号分隔值与制表符分隔值 68
4 J2 m# }1 G9 E5.2.4 SequenceFile 71( q# d6 f% T; H- }% L5 r
5.2.5 对象文件 73, p Z2 Y" ^" J4 Y$ S- }
5.2.6 Hadoop输入输出格式 73
% K) i/ F, a3 {/ ~& Q3 U5.2.7 文件压缩 77# r% V7 O1 y, w
5.3 文件系统 788 v6 M/ _0 w, P7 N+ M* p! u1 O7 s
5.3.1 本地/“常规”文件系统 789 a9 h$ H L2 C6 S
5.3.2 Amazon S3 78
2 u! j! I5 q% b8 E: g$ p. F5.3.3 HDFS 79' y" V1 l) v7 P* D
5.4 Spark SQL中的结构化数据 791 c) Z4 i7 ? k7 }0 ~: }2 T. N$ m9 [+ Z
5.4.1 Apache Hive 80
1 ^& c# S/ m& {5.4.2 JSON 801 E. ^; [8 V( T E0 W( O4 |9 w
5.5 数据库 81
+ j3 Q; u& N3 P: W& J$ Z5.5.1 Java数据库连接 81
: X- p3 \+ J3 H8 I5.5.2 Cassandra 82
: c6 T" M: J6 n5.5.3 HBase 84
4 ^! ~" X" w$ p* Z- x5.5.4 Elasticsearch 858 p0 ?% v" o2 M/ E; Y
5.6 总结 863 i1 L# k' U/ G* L. B; Q5 y( D, U
第6章 Spark编程进阶 87; k. v5 }7 c0 \' o) Z( O0 k6 J
6.1 简介 87% j% e( H( s" l/ ~. L) T
6.2 累加器 88
, z- S4 H# M9 y4 S0 F' _6.2.1 累加器与容错性 90
3 ~9 a+ A$ ?2 P6.2.2 自定义累加器 91; ]/ ?$ E4 s/ [7 D* \
6.3 广播变量 91
, b" {- T/ R/ y! i. V+ F( V. ?6.4 基于分区进行操作 94
' i: J: S" H1 s: w6.5 与外部程序间的管道 96. Y c- M8 s( B$ l0 E# F
6.6 数值RDD 的操作 99* C0 i( a6 l2 P- D
6.7 总结 100
% D1 Y4 N3 P5 H0 p! j4 b6 A/ p第7章 在集群上运行Spark 101
: T& T z, v% _/ [. R/ [7.1 简介 101
( ^# B ^' ?* A/ h( R6 {3 L- n( Y5 k7.2 Spark运行时架构 101
3 C1 Q6 L. W. O: _; u7.2.1 驱动器节点 1025 G/ F# I i) ]) H3 l& Q
7.2.2 执行器节点 1038 J8 l. H/ d) r5 F5 ?" ^! K
7.2.3 集群管理器 103 j" F4 x' c( o
7.2.4 启动一个程序 1040 B) K/ e% |1 i3 F; R( m, n$ b. S
7.2.5 小结 104, ^0 P) _4 p7 j; J" K5 X: Q
7.3 使用spark-submit 部署应用 105
$ E- r" Z: q6 a" j4 b7.4 打包代码与依赖 107
4 _9 \0 s" @! V8 h; r7.4.1 使用Maven构建的用Java编写的Spark应用 108
3 E5 E& b8 _& W% w: \7.4.2 使用sbt构建的用Scala编写的Spark应用 1092 p3 W8 N" L; F/ z% p; X4 R* W
7.4.3 依赖冲突 111
# Q- [$ k7 ]3 Z( P1 c$ I1 D7.5 Spark应用内与应用间调度 111$ F g& ]9 m' M6 b6 S4 l& d& C
7.6 集群管理器 1129 C8 q5 a% L: U, }; G
7.6.1 独立集群管理器 1127 D u" g+ W+ s6 i x* c" F
7.6.2 Hadoop YARN 115
6 N) X1 r1 b% G8 q/ \# T; k7.6.3 Apache Mesos 116
; P( V$ `7 W) I) i" E* H7.6.4 Amazon EC2 117
) e, R5 C& l+ I# `/ n7.7 选择合适的集群管理器 120
w3 _; v$ C5 G7.8 总结 1214 J6 f3 D t: A; N& n
第8章 Spark调优与调试 123
: I$ {: t+ E' i8.1 使用SparkConf配置Spark 123$ x! R6 j b$ h2 ~" l, p
8.2 Spark执行的组成部分:作业、任务和步骤 1272 Z4 O; s# e6 r% e) a
8.3 查找信息 131
8 L" \* f2 D& I& D8 z% e8.3.1 Spark网页用户界面 1312 z x: L! Z3 D
8.3.2 驱动器进程和执行器进程的日志 134
, r5 r% P0 a$ p g8 |8.4 关键性能考量 135
! C# E) ]$ K0 s8 u2 `8.4.1 并行度 135
( g0 l5 w0 r' r: z4 ]1 ?1 g5 y8.4.2 序列化格式 136
+ F2 @0 D& R, u* o' J: u) \8.4.3 内存管理 1377 R4 N& M2 K3 J; o1 \* e9 S: S5 @9 ^
8.4.4 硬件供给 138; A; T T( R! `7 q: w" u7 Q2 t
8.5 总结 139
8 l( b( s3 K( H1 d, C5 Y k7 L第9章 Spark SQL 1412 r/ H9 C0 y. R1 V5 c
9.1 连接Spark SQL 142
8 v2 P5 P& l, } D6 M9.2 在应用中使用Spark SQL 144& a0 ]3 l2 i! r' L
9.2.1 初始化Spark SQL 144
* y# f5 {6 {0 P: ~1 \% [9 _9.2.2 基本查询示例 145& m d7 C, x3 M
9.2.3 SchemaRDD 146
! u3 r- T3 o: P- Q3 M3 V w. M9.2.4 缓存 148
* c9 T g, o& r. F9.3 读取和存储数据 149
2 g1 i$ e; a# c! F5 q5 e) y9.3.1 Apache Hive 149/ x0 S" k4 y( o! t& q( ]) N
9.3.2 Parquet 150
3 _# @6 y+ I! q) l1 j6 K6 D+ d9.3.3 JSON 150
+ c1 k% N- i) g" Y2 F9.3.4 基于RDD 152$ o7 P# g& u% ?. j
9.4 JDBC/ODBC服务器 1538 a4 [& m- t( j, x. w& M
9.4.1 使用Beeline 1555 U5 }, B/ U. h! Q8 R& ^( _0 e/ s
9.4.2 长生命周期的表与查询 156' E/ J8 [5 F1 m; T- l/ g
9.5 用户自定义函数 156
1 `; \& P8 q6 p: Y7 ^! t m9.5.1 Spark SQL UDF 156
" g* {5 q+ o0 z: L9.5.2 Hive UDF 157
0 h! f q& l g! d2 B5 r$ v: F' k2 g9.6 Spark SQL性能 158
* D. H; R, [, `3 e+ @' B k9.7 总结 1590 K1 X( u! B' ?5 H+ ~: a
第10章 Spark Streaming 161
% B! a3 S* ?! B0 ~/ J0 u7 S10.1 一个简单的例子 162, `2 o$ X' r1 h2 S7 U1 p+ ^3 N
10.2 架构与抽象 164
( a- T& ^0 f* g10.3 转化操作 1671 \7 F9 M& E" G- ~! R+ x! D
10.3.1 无状态转化操作 167
6 j- l* @2 e# X! C# C4 K10.3.2 有状态转化操作 169
3 m+ U' Q' D7 w$ ]10.4 输出操作 1730 N' j4 c( m |' ` H+ C# h
10.5 输入源 1751 k+ N' z1 g3 j# h' i
10.5.1 核心数据源 175* O9 @, o6 G, E Y; }2 c9 J8 y
10.5.2 附加数据源 176
8 \3 l9 V5 V7 x) `5 C5 B10.5.3 多数据源与集群规模 179
% i+ p2 G% N+ w: _6 X10.6 24/7不间断运行 180
7 x! n1 j( m; X1 i10.6.1 检查点机制 1809 H5 G3 c4 i) D4 G
10.6.2 驱动器程序容错 181$ M! _! Q0 `1 a' X2 F. v$ u
10.6.3 工作节点容错 182/ s( d, G6 J' O. p' Q: a
10.6.4 接收器容错 182
4 f' I+ ?) ?* Y/ Z10.6.5 处理保证 183- l. C) ~ U& u. i( y; H
10.7 Streaming用户界面 183$ C% n7 ^- V! H& A. l
10.8 性能考量 1845 b) r8 L2 h' L6 u" p3 v$ e) o
10.8.1 批次和窗口大小 184. R" K& F8 H* K0 R( O) {! t: t
10.8.2 并行度 184
9 B. {1 |: F( ?10.8.3 垃圾回收和内存使用 1858 |$ O$ j+ N9 S
10.9 总结 185
, t$ m: P; F; c7 @第11章 基于MLlib的机器学习 187% U/ M6 L# T, s. B c( T7 M
11.1 概述 187
: d, ?$ v$ `6 _8 [11.2 系统要求 1882 o% D5 \6 {+ ?) e4 f
11.3 机器学习基础 1893 f# Z5 R% G. ^- G
11.4 数据类型 192
- K* [; E# I. q! m$ N4 `11.5 算法 194
( p) h! Q+ H" S. R r11.5.1 特征提取 194
5 ?5 j2 E! o& |) q; h7 U7 U) |11.5.2 统计 196" ?; O/ W9 _1 n0 v6 {& p
11.5.3 分类与回归 1971 l2 S) B% S1 j6 g7 Q2 H U6 ^8 a; n
11.5.4 聚类 202+ o1 \4 [; b. G2 M k1 x
11.5.5 协同过滤与推荐 203* _/ Y; W2 E& _
11.5.6 降维 2042 h% |2 b7 @( e( S+ M) g; m
11.5.7 模型评估 2069 P8 i0 U4 X8 a4 [5 M( C! ~3 P
11.6 一些提示与性能考量 2061 B$ b% N2 M; L: n8 k+ A, T
11.6.1 准备特征 206 n3 t4 v# U, {) n& {0 Y
11.6.2 配置算法 207) t& J0 k, y9 a4 {: X' F# N
11.6.3 缓存RDD以重复使用 207; }* ^/ g! I; Q$ y
11.6.4 识别稀疏程度 207: O0 x: e' s; t5 I# m' A
11.6.5 并行度 2079 `# Y/ p. {1 z- k: K
11.7 流水线API 208& {0 z% y# e; V* i7 Y
11.8 总结 2099 C* D3 L9 l/ ~* B- S6 K
作者简介 210! U+ z6 F! g3 a( c
封面介绍 210 @2 V; l) c& O: C2 u7 v+ g P7 [3 Z
9 @( T3 X6 P6 l( @# J- pJava资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark快速大数据分析(电子书) PDF 高清 电子书 百度云.rar【密码回帖可见】
* I# w2 G3 F& ]5 c* {4 @/ ? P/ k2 Y8 x! a3 S- ~, w
! [& c: v. [ O
8 r [' O5 u( b' ?7 w
+ E a1 }8 H' [* _+ h) G( I3 T |
|