TA的每日心情 | 开心 2018-4-8 22:14 |
---|
签到天数: 1 天 [LV.1]初学乍练
普通会员
- 积分
- 5517
|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark高级数据分析》
7 ?$ v7 F7 Q/ D/ R) Sjava电子书推荐理由:这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。 本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。 本书介绍了以下模式: 音乐推荐和Audioscrobbler数据集 用决策树算法预测森林植被 基于K均值聚类进行网络流量的异常检测 基于潜在语义分析技术分析维基百科 用GraphX分析伴生网络 对纽约出租车轨迹进行空间和时间数据分析
$ q" |; A4 T4 }! e4 k$ e# ^
4 Z" {# c0 P& J* c5 o& h作者:里扎 Sandy Ryza 莱瑟森 Laserson
2 ^ | ?. ]9 }5 o7 n7 ]2 u$ ~& B出版社:人民邮电出版社
& z$ `1 q( [: I9 j出版时间:2015-11-01
- C# c! I8 A! b" B4 z* n书籍价格:46.20元1 J7 b' y9 j8 u4 ]
2 ^& v7 k1 \8 Y8 T" t
6 B( x, `# A: ?6 F( A
. C8 P# n5 P* z$ ~ D8 D
7 h; t7 a: J4 [" a& `7 y) ~5 f4 Gjava电子书目录:
5 _- q S. N" d第1 章 大数据分析 ' G, M' e7 O( k# X, U- q
1.1 数据科学面临的挑战
2 P+ }. a- h) Z3 z7 i' j1.2 认识Apache Spark 5 M: ]2 S1 M) l( S* G, S
1.3 关于本书
' L' i1 Y7 K. \第2 章 用Scala 和Spark 进行数据分析 - E+ b. |7 c, B2 m. D
2.1 数据科学家的Scala
/ M4 X' `# p4 ~, s$ h s2.2 Spark 编程模型
1 o. l7 k! ?5 a6 L0 K2.3 记录关联问题 b# @" K. ` }, ?! w# T
2.4 小试牛刀:Spark shell 和SparkContext ) R5 h8 T- B" g! ^5 C
2.5 把数据从集群上获取到客户端 6 H/ q4 S9 e. g0 W1 D
2.6 把代码从客户端发送到集群
8 M( M1 k$ E {3 V2.7 用元组和case class 对数据进行结构化 ; q& g5 ]- ^0 ]& K9 D2 I
2.8 聚合 4 k3 `4 u/ l6 D( r
2.9 创建直方图
, z7 P9 o# z# _. K8 W2 p2.10 连续变量的概要统计 5 `3 V3 ]1 r9 @8 Z+ z" O
2.11 为计算概要信息创建可重用的代码 0 q) a2 u: J; T2 ?0 Q3 z
2.12 变量的选择和评分简介 1 A, Q: y: H' ]# K1 V
2.13 小结
8 V! C- ]+ s2 t) x4 D7 L9 Z第3 章 音乐推荐和Audioscrobbler 数据集
' S2 W" \& c6 W8 H3.1 数据集 5 T, h) E: T5 a* {- E
3.2 交替*小二乘推荐算法
B: D% e% `' \. u4 U+ }3.3 准备数据
& b4 [9 U4 e' V4 e R! [4 A& J3.4 构建**个模型
* }" k1 f# V3 m6 {" g3 y3.5 逐个检查推荐结果
7 T# Z2 q8 X$ Q6 {. u- L5 {" |' z3.6 评价推荐质量
3 n, b$ g5 a" A8 n: e3.7 计算AUC
" a& d7 [' J& o3.8 选择超参数
: u$ \, |: S5 ^% A3 b! U* w8 S' U4 V3.9 产生推荐 ) W0 ?* ?1 C8 z- X3 w: B# t
3.10 小结 ( N7 {; {+ ?6 Q9 n- E
第4 章 用决策树算法预测森林植被 8 M# \! l1 { Z! ]0 C: z3 M- @" ~
4.1 回归简介
& U3 T+ f Q7 p: y9 C5 w3 J2 \* L4.2 向量和特征 3 W2 r; T/ I3 f6 e Y# V4 B9 I
4.3 样本训练
$ t: q3 P- {( x8 P4.4 决策树和决策森林 A0 }& f9 G% ]9 q- c
4.5 Covtype 数据集 $ d+ p8 u1 G* `6 L8 k
4.6 准备数据 . E& l5 A, F* _9 h+ v" o! }
4.7 **棵决策树 & b3 r# M/ j0 N* H
4.8 决策树的超参数
) C7 b$ |# w5 N, @( ?3 |+ x4.9 决策树调优 7 h: g9 e! g% ]' ?2 H. l( C9 n
4.10 重谈类别型特征
, {% Q6 s1 d8 k4.11 随机决策森林
. O! i( d+ Z: c7 [4 B4.12 进行预测
) \: H: N2 r8 Q6 V3 G4 f5 m2 d: u4.13 小结 * n* \' H! b A. v, b0 X, l% m& Q
第5 章 基于K 均值聚类的网络流量异常检测
* V4 V7 J6 @( O6 `1 f5.1 异常检测 3 w8 |( `' f+ P; x7 o) D
5.2 K 均值聚类 8 V C! G1 T( F$ R
5.3 网络入侵
/ v, r/ y1 A" A. F+ N0 q5.4 KDD Cup 1999 数据集 4 O( |! M: U$ m% |+ x/ l1 Q# |6 B; k
5.5 初步尝试聚类 * _- q# `% q- W4 X: _$ L
5.6 K 的选择
4 Z5 g0 R2 s f4 E" ^+ b+ q5.7 基于R 的可视化
7 t4 C6 z, z, y6 w: o5.8 特征的规范化 4 }- N% B* j1 _1 _- B$ y
5.9 类别型变量 & n. r3 S2 O9 q
5.10 利用标号的熵信息
# f* [. B! [! R" G4 `( m5.11 聚类实战 - k- r7 W4 Y9 m
5.12 小结 8 ~4 ^5 w0 i3 K3 I+ P
第6 章 基于潜在语义分析算法分析维基百科 0 t6 ?1 a M6 b5 J' y8 k
6.1 词项- 文档矩阵 ! i- r: P) s2 I
6.2 获取数据
3 ?% a4 w& \+ `8 H8 `: U6.3 分析和准备数据
" U8 F) u/ q# W Y# F" j4 K" o6.4 词形归并
0 \! O9 b% w D R& g8 k) w6.5 计算TF-IDF 6 o. e z1 B$ P& i
6.6 奇异值分解
3 f6 F& w( c9 S4 m8 E6.7 找出重要的概念
4 S' W9 f, u" g( ~) ?8 y# c# ~6.8 基于低维近似的查询和评分 8 R8 f3 I! b# g
6.9 词项- 词项相关度
+ y/ u! V/ ]$ Q+ b) Y% `) h6.10 文档- 文档相关度
& |, j5 I$ v6 }1 j8 a) E& j6.11 词项- 文档相关度
- c: n l, @& L4 h9 J5 T! l9 V2 j6.12 多词项查询
) S5 `$ l* b5 t6 d* I6.13 小结 7 a+ f/ u& `! `! C, y( ~
第7 章 用GraphX 分析伴生网络 * T5 e2 h* p5 }7 X1 o: Q( B% `6 u& f- ?
7.1 对MEDLINE 文献引用索引的网络分析 1 \: ?/ s) U/ s
7.2 获取数据
3 _/ k( y; D4 _9 l3 m+ Q& s7.3 用Scala XML 工具解析XML 文档
7 u8 H' Y" X1 S! i8 m+ n0 d7.4 分析MeSH 主要主题及其伴生关系 7 y x3 |( f+ Y# x4 `* O$ N& Y
7.5 用GraphX 来建立一个伴生网络
U5 Y! U& o- K) Z! {4 o- m8 z7.6 理解网络结构
+ |9 A& K! d/ V7.6.1 连通组件 : t8 K& t, r& \* G/ k3 {
7.6.2 度的分布
, z0 I. C; O! Y8 F" w K1 `7.7 过滤噪声边
+ f3 C1 ^" ^. c% q5 ^) Y7.7.1 处理EdgeTriplet
; F7 K: L2 s! |4 f3 F7.7.2 分析去掉噪声边的子图
/ i+ i5 I# k9 t7 B7.8 小世界网络
, ~" \/ v R: I8 }$ u9 K; g, t2 G7.8.1 系和聚类系数 7 E0 t; A' R& r# g
7.8.2 用Pregel 计算平均路径长度
+ X# r1 I( W& j! S3 F K4 {7.9 小结 0 t N9 X8 M4 j# P8 X u% i- C
第8 章 纽约出租车轨迹的空间和时间数据分析 6 H. w- Q/ K( O/ p1 ~
8.1 数据的获取
/ V/ H6 a w C- w9 B8.2 基于Spark 的时间和空间数据分析
) d( y$ n. |5 g# t0 H( @6 g( i8.3 基于JodaTime 和NScalaTime 的时间数据处理
- c0 j5 p) [5 [/ n7 ~: F- {4 ^8.4 基于Esri Geometry API 和Spray 的地理空间数据处理
. W( P, f4 [, |- T, F" z9 x: S/ U) t* f8.4.1 认识Esri Geometry API
7 w3 q( X" q9 n3 ~% P7 E4 F3 K8.4.2 GeoJSON 简介 + p1 m, Z+ i6 b6 ^; U& O3 D+ h
8.5 纽约市出租车客运数据的预处理
4 v5 W$ I! N4 z$ u8.5.1 大规模数据中的非法记录处理 4 S# s* B5 l/ h
8.5.2 地理空间分析
6 W, ]5 a% G. ]( X1 _8.6 基于Spark 的会话分析
# F* {6 W3 ]7 E7 ] F8.7 小结
0 ], }6 ]' d) a# O( E8 U2 R第9 章 基于蒙特卡罗模拟的金融风险评估
" P2 M& C9 P, n9 p" J( a7 u9.1 术语 9 z% o) _ j0 E# h' a
9.2 VaR 计算方法
6 r+ {( [, Z/ L3 S9.2.1 方差- 协方差法
4 w4 k" {" g- V9.2.2 历史模拟法 : q# I( p% F% D7 ]' U! J% K
9.2.3 蒙特卡罗模拟法
+ n# i0 U2 K3 T; ~5 {9.3 我们的模型 , `& T2 u3 f5 W& ]+ G8 t
9.4 获取数据 ) w4 J1 Q9 e9 p! b8 t. H
9.5 数据预处理 " P, ] i* U9 m/ E& P5 |, |- G4 t
9.6 确定市场因素的权重
2 L% @2 l$ _, j2 @ @9.7 采样
1 g8 Q* _* b+ ?! p% R3 ]# _9.8 运行试验
0 y) G* N8 V' e- t' {& q9.9 回报分布的可视化 # O" ^3 A7 ]; Q5 W& j
9.10 结果的评估 $ A" T2 m9 m9 x4 |1 l' ~
9.11 小结
]3 Z, _2 H0 d% ]% g2 T5 i第10 章 基因数据分析和BDG 项目
" E- ~' l3 [1 v7 a, K, n) ]10.1 分离存储与模型
7 o& \# ^- Q& |0 {10.2 用ADAM CLI 导入基因学数据
; \, e& x0 p+ [% v" X/ Q. J9 L% ]% G10.3 从ENCODE 数据预测转录因子结合位点 0 W" C% ~: o" p0 R2 b% A
10.4 查询1000 Genomes 项目中的基因型 # w' D! D' y& m+ g1 ~" j
10.5 小结
9 _0 R0 x* H8 D. G7 C第11 章 基于PySpark 和Thunder 的神经图像数据分析 9 ~. ] J3 B0 s/ r4 _& W
11.1 PySpark 简介
6 P9 I2 z1 U# P/ `% G11.2 Thunder 工具包概况和安装 ' a$ O7 y" h& d" X c: n
11.3 用Thunder 加载数据
( ?; a, {3 c! m11.4 用Thunder 对神经元进行分类
4 ^+ _3 W1 W/ ?3 |8 G1 o' q7 I11.5 小结 $ Z/ R2 S& _7 \# f4 I Q0 z) }1 W
附录A Spark 进阶
1 A- P: U5 W9 M/ ^+ O附录B 即将发布的MLlib Pipelines API 6 C; s5 s) j! }3 x
作者介绍
1 F0 X% o+ h j) P9 b. F3 P封面介绍0 t- P$ O1 Q3 D+ W8 ^" _4 f- H1 C
: x3 e1 D7 ]$ C W) `
Java资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark高级数据分析 PDF 高清 电子书 百度云.rar【密码回帖可见】; i1 E& B+ f3 y" M: J: ]
8 s5 J+ I% \5 r. U
5 [! z# l+ F: l( B# a* t/ a, M( X9 O5 F# P M1 h* J
+ }$ W1 H: W+ h# V; e
|
|