java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 12432|回复: 22

[java电子书] Spark高级数据分析 PDF 电子书 百度云 网盘下载

[复制链接]
  • TA的每日心情
    开心
    2018-4-8 22:14
  • 签到天数: 1 天

    [LV.1]初学乍练

    1835

    主题

    1837

    帖子

    5517

    积分

    普通会员

    Rank: 2

    积分
    5517
    发表于 2018-7-3 20:35:00 | 显示全部楼层 |阅读模式
    java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark高级数据分析》
    7 ?$ v7 F7 Q/ D/ R) Sjava电子书推荐理由:这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。 本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。 本书介绍了以下模式: 音乐推荐和Audioscrobbler数据集 用决策树算法预测森林植被 基于K均值聚类进行网络流量的异常检测 基于潜在语义分析技术分析维基百科 用GraphX分析伴生网络 对纽约出租车轨迹进行空间和时间数据分析
    $ q" |; A4 T4 }! e4 k$ e# ^

    4 Z" {# c0 P& J* c5 o& h作者:里扎 Sandy Ryza 莱瑟森 Laserson
    2 ^  |  ?. ]9 }5 o7 n7 ]2 u$ ~& B出版社:人民邮电出版社
    & z$ `1 q( [: I9 j出版时间:2015-11-01
    - C# c! I8 A! b" B4 z* n书籍价格:46.20元1 J7 b' y9 j8 u4 ]
    2 ^& v7 k1 \8 Y8 T" t

    6 B( x, `# A: ?6 F( A
    . C8 P# n5 P* z$ ~  D8 D

    7 h; t7 a: J4 [" a& `7 y) ~5 f4 Gjava电子书目录:
    5 _- q  S. N" d第1 章 大数据分析 ' G, M' e7 O( k# X, U- q
    1.1 数据科学面临的挑战
    2 P+ }. a- h) Z3 z7 i' j1.2 认识Apache Spark 5 M: ]2 S1 M) l( S* G, S
    1.3 关于本书
    ' L' i1 Y7 K. \第2 章 用Scala 和Spark 进行数据分析 - E+ b. |7 c, B2 m. D
    2.1 数据科学家的Scala
    / M4 X' `# p4 ~, s$ h  s2.2 Spark 编程模型
    1 o. l7 k! ?5 a6 L0 K2.3 记录关联问题   b# @" K. `  }, ?! w# T
    2.4 小试牛刀:Spark shell 和SparkContext ) R5 h8 T- B" g! ^5 C
    2.5 把数据从集群上获取到客户端 6 H/ q4 S9 e. g0 W1 D
    2.6 把代码从客户端发送到集群
    8 M( M1 k$ E  {3 V2.7 用元组和case class 对数据进行结构化 ; q& g5 ]- ^0 ]& K9 D2 I
    2.8 聚合 4 k3 `4 u/ l6 D( r
    2.9 创建直方图
    , z7 P9 o# z# _. K8 W2 p2.10 连续变量的概要统计 5 `3 V3 ]1 r9 @8 Z+ z" O
    2.11 为计算概要信息创建可重用的代码 0 q) a2 u: J; T2 ?0 Q3 z
    2.12 变量的选择和评分简介 1 A, Q: y: H' ]# K1 V
    2.13 小结
    8 V! C- ]+ s2 t) x4 D7 L9 Z第3 章 音乐推荐和Audioscrobbler 数据集
    ' S2 W" \& c6 W8 H3.1 数据集 5 T, h) E: T5 a* {- E
    3.2 交替*小二乘推荐算法
      B: D% e% `' \. u4 U+ }3.3 准备数据
    & b4 [9 U4 e' V4 e  R! [4 A& J3.4 构建**个模型
    * }" k1 f# V3 m6 {" g3 y3.5 逐个检查推荐结果
    7 T# Z2 q8 X$ Q6 {. u- L5 {" |' z3.6 评价推荐质量
    3 n, b$ g5 a" A8 n: e3.7 计算AUC
    " a& d7 [' J& o3.8 选择超参数
    : u$ \, |: S5 ^% A3 b! U* w8 S' U4 V3.9 产生推荐 ) W0 ?* ?1 C8 z- X3 w: B# t
    3.10 小结 ( N7 {; {+ ?6 Q9 n- E
    第4 章  用决策树算法预测森林植被 8 M# \! l1 {  Z! ]0 C: z3 M- @" ~
    4.1 回归简介
    & U3 T+ f  Q7 p: y9 C5 w3 J2 \* L4.2 向量和特征 3 W2 r; T/ I3 f6 e  Y# V4 B9 I
    4.3 样本训练
    $ t: q3 P- {( x8 P4.4 决策树和决策森林   A0 }& f9 G% ]9 q- c
    4.5 Covtype 数据集 $ d+ p8 u1 G* `6 L8 k
    4.6 准备数据 . E& l5 A, F* _9 h+ v" o! }
    4.7 **棵决策树 & b3 r# M/ j0 N* H
    4.8 决策树的超参数
    ) C7 b$ |# w5 N, @( ?3 |+ x4.9 决策树调优 7 h: g9 e! g% ]' ?2 H. l( C9 n
    4.10 重谈类别型特征
    , {% Q6 s1 d8 k4.11 随机决策森林
    . O! i( d+ Z: c7 [4 B4.12 进行预测
    ) \: H: N2 r8 Q6 V3 G4 f5 m2 d: u4.13 小结 * n* \' H! b  A. v, b0 X, l% m& Q
    第5 章 基于K 均值聚类的网络流量异常检测
    * V4 V7 J6 @( O6 `1 f5.1 异常检测 3 w8 |( `' f+ P; x7 o) D
    5.2 K 均值聚类 8 V  C! G1 T( F$ R
    5.3 网络入侵
    / v, r/ y1 A" A. F+ N0 q5.4 KDD Cup 1999 数据集 4 O( |! M: U$ m% |+ x/ l1 Q# |6 B; k
    5.5 初步尝试聚类 * _- q# `% q- W4 X: _$ L
    5.6 K 的选择
    4 Z5 g0 R2 s  f4 E" ^+ b+ q5.7 基于R 的可视化
    7 t4 C6 z, z, y6 w: o5.8 特征的规范化 4 }- N% B* j1 _1 _- B$ y
    5.9 类别型变量 & n. r3 S2 O9 q
    5.10 利用标号的熵信息
    # f* [. B! [! R" G4 `( m5.11 聚类实战 - k- r7 W4 Y9 m
    5.12 小结 8 ~4 ^5 w0 i3 K3 I+ P
    第6 章 基于潜在语义分析算法分析维基百科 0 t6 ?1 a  M6 b5 J' y8 k
    6.1 词项- 文档矩阵 ! i- r: P) s2 I
    6.2 获取数据
    3 ?% a4 w& \+ `8 H8 `: U6.3 分析和准备数据
    " U8 F) u/ q# W  Y# F" j4 K" o6.4 词形归并
    0 \! O9 b% w  D  R& g8 k) w6.5 计算TF-IDF 6 o. e  z1 B$ P& i
    6.6 奇异值分解
    3 f6 F& w( c9 S4 m8 E6.7 找出重要的概念
    4 S' W9 f, u" g( ~) ?8 y# c# ~6.8 基于低维近似的查询和评分 8 R8 f3 I! b# g
    6.9 词项- 词项相关度
    + y/ u! V/ ]$ Q+ b) Y% `) h6.10 文档- 文档相关度
    & |, j5 I$ v6 }1 j8 a) E& j6.11 词项- 文档相关度
    - c: n  l, @& L4 h9 J5 T! l9 V2 j6.12 多词项查询
    ) S5 `$ l* b5 t6 d* I6.13 小结 7 a+ f/ u& `! `! C, y( ~
    第7 章 用GraphX 分析伴生网络 * T5 e2 h* p5 }7 X1 o: Q( B% `6 u& f- ?
    7.1 对MEDLINE 文献引用索引的网络分析 1 \: ?/ s) U/ s
    7.2 获取数据
    3 _/ k( y; D4 _9 l3 m+ Q& s7.3 用Scala XML 工具解析XML 文档
    7 u8 H' Y" X1 S! i8 m+ n0 d7.4 分析MeSH 主要主题及其伴生关系 7 y  x3 |( f+ Y# x4 `* O$ N& Y
    7.5 用GraphX 来建立一个伴生网络
      U5 Y! U& o- K) Z! {4 o- m8 z7.6 理解网络结构
    + |9 A& K! d/ V7.6.1 连通组件 : t8 K& t, r& \* G/ k3 {
    7.6.2 度的分布
    , z0 I. C; O! Y8 F" w  K1 `7.7 过滤噪声边
    + f3 C1 ^" ^. c% q5 ^) Y7.7.1 处理EdgeTriplet
    ; F7 K: L2 s! |4 f3 F7.7.2 分析去掉噪声边的子图
    / i+ i5 I# k9 t7 B7.8 小世界网络
    , ~" \/ v  R: I8 }$ u9 K; g, t2 G7.8.1 系和聚类系数 7 E0 t; A' R& r# g
    7.8.2 用Pregel 计算平均路径长度
    + X# r1 I( W& j! S3 F  K4 {7.9 小结 0 t  N9 X8 M4 j# P8 X  u% i- C
    第8 章 纽约出租车轨迹的空间和时间数据分析 6 H. w- Q/ K( O/ p1 ~
    8.1 数据的获取
    / V/ H6 a  w  C- w9 B8.2 基于Spark 的时间和空间数据分析
    ) d( y$ n. |5 g# t0 H( @6 g( i8.3 基于JodaTime 和NScalaTime 的时间数据处理
    - c0 j5 p) [5 [/ n7 ~: F- {4 ^8.4 基于Esri Geometry API 和Spray 的地理空间数据处理
    . W( P, f4 [, |- T, F" z9 x: S/ U) t* f8.4.1 认识Esri Geometry API
    7 w3 q( X" q9 n3 ~% P7 E4 F3 K8.4.2 GeoJSON 简介 + p1 m, Z+ i6 b6 ^; U& O3 D+ h
    8.5 纽约市出租车客运数据的预处理
    4 v5 W$ I! N4 z$ u8.5.1 大规模数据中的非法记录处理 4 S# s* B5 l/ h
    8.5.2 地理空间分析
    6 W, ]5 a% G. ]( X1 _8.6 基于Spark 的会话分析
    # F* {6 W3 ]7 E7 ]  F8.7 小结
    0 ], }6 ]' d) a# O( E8 U2 R第9 章 基于蒙特卡罗模拟的金融风险评估
    " P2 M& C9 P, n9 p" J( a7 u9.1 术语 9 z% o) _  j0 E# h' a
    9.2 VaR 计算方法
    6 r+ {( [, Z/ L3 S9.2.1 方差- 协方差法
    4 w4 k" {" g- V9.2.2 历史模拟法 : q# I( p% F% D7 ]' U! J% K
    9.2.3 蒙特卡罗模拟法
    + n# i0 U2 K3 T; ~5 {9.3 我们的模型 , `& T2 u3 f5 W& ]+ G8 t
    9.4 获取数据 ) w4 J1 Q9 e9 p! b8 t. H
    9.5 数据预处理 " P, ]  i* U9 m/ E& P5 |, |- G4 t
    9.6 确定市场因素的权重
    2 L% @2 l$ _, j2 @  @9.7 采样
    1 g8 Q* _* b+ ?! p% R3 ]# _9.8 运行试验
    0 y) G* N8 V' e- t' {& q9.9 回报分布的可视化 # O" ^3 A7 ]; Q5 W& j
    9.10 结果的评估 $ A" T2 m9 m9 x4 |1 l' ~
    9.11 小结
      ]3 Z, _2 H0 d% ]% g2 T5 i第10 章 基因数据分析和BDG 项目
    " E- ~' l3 [1 v7 a, K, n) ]10.1 分离存储与模型
    7 o& \# ^- Q& |0 {10.2 用ADAM CLI 导入基因学数据
    ; \, e& x0 p+ [% v" X/ Q. J9 L% ]% G10.3 从ENCODE 数据预测转录因子结合位点 0 W" C% ~: o" p0 R2 b% A
    10.4 查询1000 Genomes 项目中的基因型 # w' D! D' y& m+ g1 ~" j
    10.5 小结
    9 _0 R0 x* H8 D. G7 C第11 章 基于PySpark 和Thunder 的神经图像数据分析 9 ~. ]  J3 B0 s/ r4 _& W
    11.1 PySpark 简介
    6 P9 I2 z1 U# P/ `% G11.2 Thunder 工具包概况和安装 ' a$ O7 y" h& d" X  c: n
    11.3 用Thunder 加载数据
    ( ?; a, {3 c! m11.4 用Thunder 对神经元进行分类
    4 ^+ _3 W1 W/ ?3 |8 G1 o' q7 I11.5 小结 $ Z/ R2 S& _7 \# f4 I  Q0 z) }1 W
    附录A Spark 进阶
    1 A- P: U5 W9 M/ ^+ O附录B 即将发布的MLlib Pipelines API 6 C; s5 s) j! }3 x
    作者介绍
    1 F0 X% o+ h  j) P9 b. F3 P封面介绍0 t- P$ O1 Q3 D+ W8 ^" _4 f- H1 C
    : x3 e1 D7 ]$ C  W) `
    Java资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark高级数据分析  PDF 高清 电子书 百度云.rar【密码回帖可见】; i1 E& B+ f3 y" M: J: ]
    游客,如果您要查看本帖隐藏内容请回复
    8 s5 J+ I% \5 r. U

    5 [! z# l+ F: l( B# a* t
    / a, M( X9 O5 F# P  M1 h* J
    + }$ W1 H: W+ h# V; e
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2018-8-3 16:01
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    4

    帖子

    15

    积分

    普通会员

    Rank: 2

    积分
    15
    发表于 2018-8-3 16:03:14 | 显示全部楼层
    谢谢分享,希望可以下到满意的资源
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3215

    帖子

    6432

    积分

    普通会员

    Rank: 2

    积分
    6432
    发表于 2019-12-24 13:59:55 | 显示全部楼层
    goooood。学习下
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3307

    帖子

    6616

    积分

    普通会员

    Rank: 2

    积分
    6616
    发表于 2019-12-29 14:26:27 | 显示全部楼层
    资料不错,赶快下载
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3308

    帖子

    6618

    积分

    普通会员

    Rank: 2

    积分
    6618
    发表于 2020-1-10 09:24:04 | 显示全部楼层
    非常好非常好非常好非常好非常好非常好
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3257

    帖子

    6516

    积分

    普通会员

    Rank: 2

    积分
    6516
    发表于 2020-1-11 07:37:44 | 显示全部楼层
    不错 支持下
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3226

    帖子

    6468

    积分

    禁止发言

    积分
    6468
    发表于 2020-1-27 15:08:38 | 显示全部楼层
    提示: 作者被禁止或删除 内容自动屏蔽
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3234

    帖子

    6470

    积分

    普通会员

    Rank: 2

    积分
    6470
    发表于 2020-2-13 16:53:36 | 显示全部楼层
    前排顶,很好!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3311

    帖子

    6622

    积分

    普通会员

    Rank: 2

    积分
    6622
    发表于 2020-2-14 18:15:15 | 显示全部楼层
    非常好,!!!!!!!!!!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2021-5-5 16:25
  • 签到天数: 58 天

    [LV.5]渐入佳境

    0

    主题

    309

    帖子

    30万

    积分

    终身VIP

    Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60

    积分
    301615
    发表于 2020-2-14 22:56:50 | 显示全部楼层
    spark is good
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2024-4-26 07:04 , Processed in 2.213323 second(s), 41 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表