TA的每日心情 | 开心 2018-4-8 22:14 |
---|
签到天数: 1 天 [LV.1]初学乍练
普通会员
- 积分
- 5517
|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark高级数据分析》
" U, ]. b/ [8 r7 t5 m+ k. Mjava电子书推荐理由:这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。 本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。 本书介绍了以下模式: 音乐推荐和Audioscrobbler数据集 用决策树算法预测森林植被 基于K均值聚类进行网络流量的异常检测 基于潜在语义分析技术分析维基百科 用GraphX分析伴生网络 对纽约出租车轨迹进行空间和时间数据分析
3 e r; d5 z. \" m, ]3 g6 t7 y; K; h; Y2 T2 s: B& c! H
作者:里扎 Sandy Ryza 莱瑟森 Laserson
5 i5 |1 u, R0 D7 ~出版社:人民邮电出版社# H% l: B& F& M, m C+ H7 c6 }& ]4 o
出版时间:2015-11-01 g! d8 U% W/ C' I6 y) g. W# `9 E
书籍价格:46.20元6 g4 u7 Y: p& J+ h7 g# a
9 w/ F% O# |( c; k' B/ n: K3 b+ D/ j
# ]% h* k$ u' T& k4 g5 e! ]) l; ?
) ]1 X) X' ]# Z+ r4 {5 ^% Bjava电子书目录:* \# k5 z# l5 [, N) a
第1 章 大数据分析
; q! z4 d& g/ o8 T X' i1.1 数据科学面临的挑战
% {, k' Y% h3 d5 M7 a8 e1.2 认识Apache Spark : Q9 ]) }/ @7 u; i, c8 o/ X) `
1.3 关于本书
1 j& u# |9 R! l" l2 z# w2 T第2 章 用Scala 和Spark 进行数据分析 - C0 m% Z- k* N2 D8 C$ W
2.1 数据科学家的Scala
: q! u+ T3 c9 R6 x5 h+ j: b2.2 Spark 编程模型
0 L( S$ D8 R+ N4 V+ x# k2.3 记录关联问题
/ a. K, \, \& p2.4 小试牛刀:Spark shell 和SparkContext
+ d: A" g3 D( C. C/ r1 ]2.5 把数据从集群上获取到客户端 |) O# `0 i& {4 ?" K) d
2.6 把代码从客户端发送到集群 , m! F: p; D9 e" _1 [+ J7 V6 m
2.7 用元组和case class 对数据进行结构化
% T* b, a6 P' C* d/ }+ J2.8 聚合
/ N) q, ~+ P2 }0 K5 m! f2.9 创建直方图
# f2 P9 T3 Q9 n, Q2.10 连续变量的概要统计 8 a. f# L7 I0 q& C
2.11 为计算概要信息创建可重用的代码
, P' Q6 Q: ]: W2 J. t% J1 p2.12 变量的选择和评分简介 , U$ B% L1 v. ?) z+ W
2.13 小结 2 d2 \3 d: _7 z( p/ E+ [
第3 章 音乐推荐和Audioscrobbler 数据集 + N& F6 ]3 h' j) x H+ D1 @ e
3.1 数据集 2 U$ ~& a" a4 A" L
3.2 交替*小二乘推荐算法
2 }6 S+ o+ f, |; G5 F. C3.3 准备数据 , c/ j0 X' h9 N" H. X8 F0 I1 ?5 v
3.4 构建**个模型 2 V1 n$ t4 H- u! v
3.5 逐个检查推荐结果 3 A5 I( H) j( }; T. D$ D
3.6 评价推荐质量 - w' J! a; L, ~$ `
3.7 计算AUC
$ q% l' p6 r; j5 t e. J3.8 选择超参数
# Z% e2 {7 o# g, e" ]7 a3.9 产生推荐
1 D; `2 q. p8 B) O3.10 小结
0 j' K* n s& i1 m; g第4 章 用决策树算法预测森林植被
5 W. u* Z3 ]6 t4.1 回归简介
1 U2 G- ~/ E% Z3 L4.2 向量和特征
2 y1 @6 y! @6 p8 e" V' D4.3 样本训练
, U* D/ u! j- e# L8 v, i4.4 决策树和决策森林 ! D( \, O; A$ |, z) {
4.5 Covtype 数据集 % C& e' |* D5 w& j2 [; ^
4.6 准备数据 1 I% V" S8 f4 x' u3 k$ x( `
4.7 **棵决策树
1 g. d4 w2 ?) M& L' y( {6 S8 {" N4.8 决策树的超参数 $ v# x4 `7 l' O; p7 p, C* F1 C7 H1 U+ C
4.9 决策树调优
" X X2 |2 `! `* u5 _; S3 ^' d4.10 重谈类别型特征
( A. o7 s) `. i# V% {4.11 随机决策森林
- l r' c# N- M7 U, ?4.12 进行预测
9 K& J/ D" o' o: u$ a1 b4.13 小结 3 w R1 |- ~1 m4 N/ G7 \) K1 d
第5 章 基于K 均值聚类的网络流量异常检测
. `3 x. W& X( R7 L9 o% x l& ~2 O# J5.1 异常检测
0 H5 x' Y) _ Z M4 Q7 K5.2 K 均值聚类
+ L( p4 n% s' E3 i" \5.3 网络入侵 ; A4 l0 D2 n* y# k! ~3 g& B
5.4 KDD Cup 1999 数据集
6 q+ [2 }; ^* _! [5.5 初步尝试聚类 0 T2 T) K' t6 _
5.6 K 的选择 0 ~) n8 Y! F4 s4 ~
5.7 基于R 的可视化
, j, M" ?( \+ T( |3 {) j5.8 特征的规范化
/ V: G5 f2 W+ E. Q% C- @! v, }5.9 类别型变量 1 x. e' w( R X4 ]5 _ l% q2 W3 q
5.10 利用标号的熵信息 + ?3 q3 p$ B# l! K$ J1 e7 [
5.11 聚类实战
2 a4 [) K, X* x7 Q/ k' u5.12 小结
: i- i; B& _6 d第6 章 基于潜在语义分析算法分析维基百科 / U7 m, f0 m g
6.1 词项- 文档矩阵 / H R! h6 E4 O5 N
6.2 获取数据 * ?$ J0 g& L+ A& W7 i
6.3 分析和准备数据
0 i, ^$ M @+ l0 n6.4 词形归并
$ U& L% g% Q( _. `6 Y5 ^0 L' c6.5 计算TF-IDF 9 N; L$ o! S9 C, z& {
6.6 奇异值分解
2 s" y- H5 I2 z2 X; T7 x6.7 找出重要的概念
/ c2 a; G1 _( P* g$ V6.8 基于低维近似的查询和评分
5 e+ R; Z9 @; m6.9 词项- 词项相关度 , T7 M# ~! T$ Z1 b2 w* D I3 O7 e
6.10 文档- 文档相关度
( K$ n4 m, U) I" ?7 L6.11 词项- 文档相关度
% M L3 m4 S3 `7 A! U" t6.12 多词项查询
1 t. u t- \& o, ~" i4 m# [6.13 小结
. b( K4 _" y3 T) f& _6 o第7 章 用GraphX 分析伴生网络
- e; L/ `" S$ ?7.1 对MEDLINE 文献引用索引的网络分析
. A" V6 M; t5 z: d0 Z4 M7.2 获取数据
3 r* U' l! B$ c$ Q6 h C7.3 用Scala XML 工具解析XML 文档 6 T9 I# {) x5 w6 t
7.4 分析MeSH 主要主题及其伴生关系
4 |& z/ D; X$ T" U7.5 用GraphX 来建立一个伴生网络
# C/ N8 v- K& s' c6 ^7.6 理解网络结构 . f" W) ]+ L% {& [9 h" y
7.6.1 连通组件
2 E# j: g$ }# T( h7.6.2 度的分布 ; X6 q3 M( |! y% V! `& q
7.7 过滤噪声边 7 _/ o; e% p/ I8 r. n/ T7 U# m v
7.7.1 处理EdgeTriplet
3 p# B8 F' A: k2 j7.7.2 分析去掉噪声边的子图 ( U4 @8 C( x4 o$ A: a) N
7.8 小世界网络 / ]9 G$ H m3 X# M4 K5 P
7.8.1 系和聚类系数
: d: @0 ~. Q! l* t7 g7.8.2 用Pregel 计算平均路径长度
) `# @9 @* g0 X$ a8 h7.9 小结
) m6 e3 t! |0 _, F n, W+ f第8 章 纽约出租车轨迹的空间和时间数据分析
$ q. [: v0 j2 a2 P$ w, k8.1 数据的获取 2 ]0 \) p% e, O
8.2 基于Spark 的时间和空间数据分析 d& D m8 ]! k$ Z" t
8.3 基于JodaTime 和NScalaTime 的时间数据处理
5 W( c5 c. {4 `8.4 基于Esri Geometry API 和Spray 的地理空间数据处理
6 m) B7 Z3 v5 v5 |. F" d+ C* g8.4.1 认识Esri Geometry API
* `3 f; Y' j( t, Y0 c$ O1 m8.4.2 GeoJSON 简介
1 S# z, p* `8 c; I8.5 纽约市出租车客运数据的预处理 + K4 \7 H1 I" D- m l( i* ~$ }% d
8.5.1 大规模数据中的非法记录处理 - x6 p% K+ n; M, g; n. G/ X$ j& w3 j
8.5.2 地理空间分析
1 G" e5 b4 b& @* _) D& `8.6 基于Spark 的会话分析
# X- a/ \! {# {: Y8.7 小结 1 B' K" s0 y- C# l" m
第9 章 基于蒙特卡罗模拟的金融风险评估
! |( \- r% n2 d4 v9.1 术语
! c2 i* H+ w0 ]$ O8 d. f) G- n9.2 VaR 计算方法 3 o( l7 s0 r3 o! l1 ^) j
9.2.1 方差- 协方差法
* |3 l4 E) R% m$ o' P9.2.2 历史模拟法
- I) o! e, j {; m! }. L! X9.2.3 蒙特卡罗模拟法
; O2 z0 _/ S5 F, x( s7 u( T5 |4 L9.3 我们的模型 5 O$ ?3 a$ v) ?+ \" u7 c
9.4 获取数据 + T7 g; i8 G- P9 c- r' x1 f
9.5 数据预处理
D* A) c+ R3 P/ d' t$ q9.6 确定市场因素的权重
1 E7 B/ Q; i& S/ m9.7 采样 , O0 S- U9 A$ T0 t2 m1 {
9.8 运行试验
+ H" j( P7 D# q. [/ i9.9 回报分布的可视化
- j6 o. \0 p' q3 g6 u* @9.10 结果的评估 3 l- D6 N" S# I g
9.11 小结
( L: u/ k3 t f: R第10 章 基因数据分析和BDG 项目
2 O0 w7 x- B6 k7 W% l' \4 n10.1 分离存储与模型
% h& ~) v- `5 W1 Y# \! A7 c! K10.2 用ADAM CLI 导入基因学数据
1 ?" ?, |( v5 M) y10.3 从ENCODE 数据预测转录因子结合位点 : \8 Z8 H' A B3 A Y6 U
10.4 查询1000 Genomes 项目中的基因型 5 Q* |1 H" H$ }8 ]
10.5 小结
, ]1 k+ S- l: W4 `第11 章 基于PySpark 和Thunder 的神经图像数据分析 - ?1 d1 }7 Y0 A9 m% f3 e- `# |
11.1 PySpark 简介 ! m& B& i' i& X S( b! b, p
11.2 Thunder 工具包概况和安装 4 a: R9 |; Q: F" t
11.3 用Thunder 加载数据 : U: q" S# `7 a6 r
11.4 用Thunder 对神经元进行分类 ! D' L( Q2 D7 S! _
11.5 小结 / X6 \' s! c& G7 s
附录A Spark 进阶
& ?, |7 q8 J5 S7 G# U8 p m附录B 即将发布的MLlib Pipelines API 7 {, x3 X, u1 v t3 t5 p8 G
作者介绍 / H( u; I& ^5 {8 V3 j
封面介绍
* r5 i! \' O: z( t
7 _# W8 |- z0 o: [& C! MJava资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark高级数据分析 PDF 高清 电子书 百度云.rar【密码回帖可见】: _+ U; Y' p/ z U! t4 @( _
: \1 s, R9 u0 }5 i- ]
3 L+ f: Z6 y; u' @8 _) q6 i" B# H
+ F* C. Z" P. B- ]* f7 e |
|