java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 12435|回复: 22

[java电子书] Spark高级数据分析 PDF 电子书 百度云 网盘下载

[复制链接]
  • TA的每日心情
    开心
    2018-4-8 22:14
  • 签到天数: 1 天

    [LV.1]初学乍练

    1835

    主题

    1837

    帖子

    5517

    积分

    普通会员

    Rank: 2

    积分
    5517
    发表于 2018-7-3 20:35:00 | 显示全部楼层 |阅读模式
    java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark高级数据分析》
    " U, ]. b/ [8 r7 t5 m+ k. Mjava电子书推荐理由:这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。 本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。 本书介绍了以下模式: 音乐推荐和Audioscrobbler数据集 用决策树算法预测森林植被 基于K均值聚类进行网络流量的异常检测 基于潜在语义分析技术分析维基百科 用GraphX分析伴生网络 对纽约出租车轨迹进行空间和时间数据分析
    3 e  r; d5 z. \
    " m, ]3 g6 t7 y; K; h; Y2 T2 s: B& c! H
    作者:里扎 Sandy Ryza 莱瑟森 Laserson
    5 i5 |1 u, R0 D7 ~出版社:人民邮电出版社# H% l: B& F& M, m  C+ H7 c6 }& ]4 o
    出版时间:2015-11-01   g! d8 U% W/ C' I6 y) g. W# `9 E
    书籍价格:46.20元6 g4 u7 Y: p& J+ h7 g# a

    9 w/ F% O# |( c; k' B/ n: K3 b+ D/ j
    # ]% h* k$ u' T& k4 g5 e! ]) l; ?

    ) ]1 X) X' ]# Z+ r4 {5 ^% Bjava电子书目录:* \# k5 z# l5 [, N) a
    第1 章 大数据分析
    ; q! z4 d& g/ o8 T  X' i1.1 数据科学面临的挑战
    % {, k' Y% h3 d5 M7 a8 e1.2 认识Apache Spark : Q9 ]) }/ @7 u; i, c8 o/ X) `
    1.3 关于本书
    1 j& u# |9 R! l" l2 z# w2 T第2 章 用Scala 和Spark 进行数据分析 - C0 m% Z- k* N2 D8 C$ W
    2.1 数据科学家的Scala
    : q! u+ T3 c9 R6 x5 h+ j: b2.2 Spark 编程模型
    0 L( S$ D8 R+ N4 V+ x# k2.3 记录关联问题
    / a. K, \, \& p2.4 小试牛刀:Spark shell 和SparkContext
    + d: A" g3 D( C. C/ r1 ]2.5 把数据从集群上获取到客户端   |) O# `0 i& {4 ?" K) d
    2.6 把代码从客户端发送到集群 , m! F: p; D9 e" _1 [+ J7 V6 m
    2.7 用元组和case class 对数据进行结构化
    % T* b, a6 P' C* d/ }+ J2.8 聚合
    / N) q, ~+ P2 }0 K5 m! f2.9 创建直方图
    # f2 P9 T3 Q9 n, Q2.10 连续变量的概要统计 8 a. f# L7 I0 q& C
    2.11 为计算概要信息创建可重用的代码
    , P' Q6 Q: ]: W2 J. t% J1 p2.12 变量的选择和评分简介 , U$ B% L1 v. ?) z+ W
    2.13 小结 2 d2 \3 d: _7 z( p/ E+ [
    第3 章 音乐推荐和Audioscrobbler 数据集 + N& F6 ]3 h' j) x  H+ D1 @  e
    3.1 数据集 2 U$ ~& a" a4 A" L
    3.2 交替*小二乘推荐算法
    2 }6 S+ o+ f, |; G5 F. C3.3 准备数据 , c/ j0 X' h9 N" H. X8 F0 I1 ?5 v
    3.4 构建**个模型 2 V1 n$ t4 H- u! v
    3.5 逐个检查推荐结果 3 A5 I( H) j( }; T. D$ D
    3.6 评价推荐质量 - w' J! a; L, ~$ `
    3.7 计算AUC
    $ q% l' p6 r; j5 t  e. J3.8 选择超参数
    # Z% e2 {7 o# g, e" ]7 a3.9 产生推荐
    1 D; `2 q. p8 B) O3.10 小结
    0 j' K* n  s& i1 m; g第4 章  用决策树算法预测森林植被
    5 W. u* Z3 ]6 t4.1 回归简介
    1 U2 G- ~/ E% Z3 L4.2 向量和特征
    2 y1 @6 y! @6 p8 e" V' D4.3 样本训练
    , U* D/ u! j- e# L8 v, i4.4 决策树和决策森林 ! D( \, O; A$ |, z) {
    4.5 Covtype 数据集 % C& e' |* D5 w& j2 [; ^
    4.6 准备数据 1 I% V" S8 f4 x' u3 k$ x( `
    4.7 **棵决策树
    1 g. d4 w2 ?) M& L' y( {6 S8 {" N4.8 决策树的超参数 $ v# x4 `7 l' O; p7 p, C* F1 C7 H1 U+ C
    4.9 决策树调优
    " X  X2 |2 `! `* u5 _; S3 ^' d4.10 重谈类别型特征
    ( A. o7 s) `. i# V% {4.11 随机决策森林
    - l  r' c# N- M7 U, ?4.12 进行预测
    9 K& J/ D" o' o: u$ a1 b4.13 小结 3 w  R1 |- ~1 m4 N/ G7 \) K1 d
    第5 章 基于K 均值聚类的网络流量异常检测
    . `3 x. W& X( R7 L9 o% x  l& ~2 O# J5.1 异常检测
    0 H5 x' Y) _  Z  M4 Q7 K5.2 K 均值聚类
    + L( p4 n% s' E3 i" \5.3 网络入侵 ; A4 l0 D2 n* y# k! ~3 g& B
    5.4 KDD Cup 1999 数据集
    6 q+ [2 }; ^* _! [5.5 初步尝试聚类 0 T2 T) K' t6 _
    5.6 K 的选择 0 ~) n8 Y! F4 s4 ~
    5.7 基于R 的可视化
    , j, M" ?( \+ T( |3 {) j5.8 特征的规范化
    / V: G5 f2 W+ E. Q% C- @! v, }5.9 类别型变量 1 x. e' w( R  X4 ]5 _  l% q2 W3 q
    5.10 利用标号的熵信息 + ?3 q3 p$ B# l! K$ J1 e7 [
    5.11 聚类实战
    2 a4 [) K, X* x7 Q/ k' u5.12 小结
    : i- i; B& _6 d第6 章 基于潜在语义分析算法分析维基百科 / U7 m, f0 m  g
    6.1 词项- 文档矩阵 / H  R! h6 E4 O5 N
    6.2 获取数据 * ?$ J0 g& L+ A& W7 i
    6.3 分析和准备数据
    0 i, ^$ M  @+ l0 n6.4 词形归并
    $ U& L% g% Q( _. `6 Y5 ^0 L' c6.5 计算TF-IDF 9 N; L$ o! S9 C, z& {
    6.6 奇异值分解
    2 s" y- H5 I2 z2 X; T7 x6.7 找出重要的概念
    / c2 a; G1 _( P* g$ V6.8 基于低维近似的查询和评分
    5 e+ R; Z9 @; m6.9 词项- 词项相关度 , T7 M# ~! T$ Z1 b2 w* D  I3 O7 e
    6.10 文档- 文档相关度
    ( K$ n4 m, U) I" ?7 L6.11 词项- 文档相关度
    % M  L3 m4 S3 `7 A! U" t6.12 多词项查询
    1 t. u  t- \& o, ~" i4 m# [6.13 小结
    . b( K4 _" y3 T) f& _6 o第7 章 用GraphX 分析伴生网络
    - e; L/ `" S$ ?7.1 对MEDLINE 文献引用索引的网络分析
    . A" V6 M; t5 z: d0 Z4 M7.2 获取数据
    3 r* U' l! B$ c$ Q6 h  C7.3 用Scala XML 工具解析XML 文档 6 T9 I# {) x5 w6 t
    7.4 分析MeSH 主要主题及其伴生关系
    4 |& z/ D; X$ T" U7.5 用GraphX 来建立一个伴生网络
    # C/ N8 v- K& s' c6 ^7.6 理解网络结构 . f" W) ]+ L% {& [9 h" y
    7.6.1 连通组件
    2 E# j: g$ }# T( h7.6.2 度的分布 ; X6 q3 M( |! y% V! `& q
    7.7 过滤噪声边 7 _/ o; e% p/ I8 r. n/ T7 U# m  v
    7.7.1 处理EdgeTriplet
    3 p# B8 F' A: k2 j7.7.2 分析去掉噪声边的子图 ( U4 @8 C( x4 o$ A: a) N
    7.8 小世界网络 / ]9 G$ H  m3 X# M4 K5 P
    7.8.1 系和聚类系数
    : d: @0 ~. Q! l* t7 g7.8.2 用Pregel 计算平均路径长度
    ) `# @9 @* g0 X$ a8 h7.9 小结
    ) m6 e3 t! |0 _, F  n, W+ f第8 章 纽约出租车轨迹的空间和时间数据分析
    $ q. [: v0 j2 a2 P$ w, k8.1 数据的获取 2 ]0 \) p% e, O
    8.2 基于Spark 的时间和空间数据分析   d& D  m8 ]! k$ Z" t
    8.3 基于JodaTime 和NScalaTime 的时间数据处理
    5 W( c5 c. {4 `8.4 基于Esri Geometry API 和Spray 的地理空间数据处理
    6 m) B7 Z3 v5 v5 |. F" d+ C* g8.4.1 认识Esri Geometry API
    * `3 f; Y' j( t, Y0 c$ O1 m8.4.2 GeoJSON 简介
    1 S# z, p* `8 c; I8.5 纽约市出租车客运数据的预处理 + K4 \7 H1 I" D- m  l( i* ~$ }% d
    8.5.1 大规模数据中的非法记录处理 - x6 p% K+ n; M, g; n. G/ X$ j& w3 j
    8.5.2 地理空间分析
    1 G" e5 b4 b& @* _) D& `8.6 基于Spark 的会话分析
    # X- a/ \! {# {: Y8.7 小结 1 B' K" s0 y- C# l" m
    第9 章 基于蒙特卡罗模拟的金融风险评估
    ! |( \- r% n2 d4 v9.1 术语
    ! c2 i* H+ w0 ]$ O8 d. f) G- n9.2 VaR 计算方法 3 o( l7 s0 r3 o! l1 ^) j
    9.2.1 方差- 协方差法
    * |3 l4 E) R% m$ o' P9.2.2 历史模拟法
    - I) o! e, j  {; m! }. L! X9.2.3 蒙特卡罗模拟法
    ; O2 z0 _/ S5 F, x( s7 u( T5 |4 L9.3 我们的模型 5 O$ ?3 a$ v) ?+ \" u7 c
    9.4 获取数据 + T7 g; i8 G- P9 c- r' x1 f
    9.5 数据预处理
      D* A) c+ R3 P/ d' t$ q9.6 确定市场因素的权重
    1 E7 B/ Q; i& S/ m9.7 采样 , O0 S- U9 A$ T0 t2 m1 {
    9.8 运行试验
    + H" j( P7 D# q. [/ i9.9 回报分布的可视化
    - j6 o. \0 p' q3 g6 u* @9.10 结果的评估 3 l- D6 N" S# I  g
    9.11 小结
    ( L: u/ k3 t  f: R第10 章 基因数据分析和BDG 项目
    2 O0 w7 x- B6 k7 W% l' \4 n10.1 分离存储与模型
    % h& ~) v- `5 W1 Y# \! A7 c! K10.2 用ADAM CLI 导入基因学数据
    1 ?" ?, |( v5 M) y10.3 从ENCODE 数据预测转录因子结合位点 : \8 Z8 H' A  B3 A  Y6 U
    10.4 查询1000 Genomes 项目中的基因型 5 Q* |1 H" H$ }8 ]
    10.5 小结
    , ]1 k+ S- l: W4 `第11 章 基于PySpark 和Thunder 的神经图像数据分析 - ?1 d1 }7 Y0 A9 m% f3 e- `# |
    11.1 PySpark 简介 ! m& B& i' i& X  S( b! b, p
    11.2 Thunder 工具包概况和安装 4 a: R9 |; Q: F" t
    11.3 用Thunder 加载数据 : U: q" S# `7 a6 r
    11.4 用Thunder 对神经元进行分类 ! D' L( Q2 D7 S! _
    11.5 小结 / X6 \' s! c& G7 s
    附录A Spark 进阶
    & ?, |7 q8 J5 S7 G# U8 p  m附录B 即将发布的MLlib Pipelines API 7 {, x3 X, u1 v  t3 t5 p8 G
    作者介绍 / H( u; I& ^5 {8 V3 j
    封面介绍
    * r5 i! \' O: z( t
    7 _# W8 |- z0 o: [& C! MJava资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark高级数据分析  PDF 高清 电子书 百度云.rar【密码回帖可见】: _+ U; Y' p/ z  U! t4 @( _
    游客,如果您要查看本帖隐藏内容请回复
    : \1 s, R9 u0 }5 i- ]

    3 L+ f: Z6 y; u' @
    8 _) q6 i" B# H

    + F* C. Z" P. B- ]* f7 e
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2018-8-3 16:01
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    4

    帖子

    15

    积分

    普通会员

    Rank: 2

    积分
    15
    发表于 2018-8-3 16:03:14 | 显示全部楼层
    谢谢分享,希望可以下到满意的资源
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3255

    帖子

    6512

    积分

    普通会员

    Rank: 2

    积分
    6512
    发表于 2019-12-24 13:59:55 | 显示全部楼层
    goooood。学习下
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3349

    帖子

    6700

    积分

    普通会员

    Rank: 2

    积分
    6700
    发表于 2019-12-29 14:26:27 | 显示全部楼层
    资料不错,赶快下载
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3362

    帖子

    6726

    积分

    普通会员

    Rank: 2

    积分
    6726
    发表于 2020-1-10 09:24:04 | 显示全部楼层
    非常好非常好非常好非常好非常好非常好
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3309

    帖子

    6620

    积分

    普通会员

    Rank: 2

    积分
    6620
    发表于 2020-1-11 07:37:44 | 显示全部楼层
    不错 支持下
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3272

    帖子

    6560

    积分

    禁止发言

    积分
    6560
    发表于 2020-1-27 15:08:38 | 显示全部楼层
    提示: 作者被禁止或删除 内容自动屏蔽
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3271

    帖子

    6544

    积分

    普通会员

    Rank: 2

    积分
    6544
    发表于 2020-2-13 16:53:36 | 显示全部楼层
    前排顶,很好!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3356

    帖子

    6712

    积分

    普通会员

    Rank: 2

    积分
    6712
    发表于 2020-2-14 18:15:15 | 显示全部楼层
    非常好,!!!!!!!!!!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2021-5-5 16:25
  • 签到天数: 58 天

    [LV.5]渐入佳境

    0

    主题

    309

    帖子

    30万

    积分

    终身VIP

    Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60

    积分
    301615
    发表于 2020-2-14 22:56:50 | 显示全部楼层
    spark is good
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2024-5-5 13:34 , Processed in 0.092482 second(s), 41 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表