java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2240|回复: 0

《大规模分布式存储系统》 第4章 分布式文件系统【4.2】

[复制链接]
  • TA的每日心情
    开心
    2021-5-25 00:00
  • 签到天数: 1917 天

    [LV.Master]出神入化

    2025

    主题

    3683

    帖子

    6万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    66105

    宣传达人突出贡献优秀版主荣誉管理论坛元老

    发表于 2017-3-3 20:23:20 | 显示全部楼层 |阅读模式
    4.2 Taobao File System
    $ ^0 d/ g# x. Y0 W1 e- r互联网应用经常需要存储用户上传的文档、图片、视频等,比如Facebook相9 X: X5 t6 U: J8 P
    册、淘宝图片、Dropbox文档等。文档、图片、视频一般称为Blob数据,存储Blob数
    - b1 ~5 X3 R; a% O据的文件系统也相应地称为Blob存储系统。每个Blob数据一般都比较大,而且多个% d, _: V8 r' M% i
    Blob之间没有关联。Blob文件系统的特点是数据写入后基本都是只读,很少出现更
    : t3 `# R8 H" \7 M. D! E新操作。这两节分别以Taobao File System和Facebook Haystack为例说明Blob文件系统' z3 W7 i" Y  X2 H3 m
    的架构。% K+ y! O, h5 `4 X8 ?& t4 N7 r% k- l' L
    2007年以前淘宝的图片存储系统使用了昂贵的NetApp存储设备,由于淘宝数据  q' G9 O0 H: ]4 `7 h1 q' {
    量大且增长很快,出于性能和成本的考虑,淘宝自主研发了Blob存储系统Tabao File
    ( T/ q3 n! G/ lSystem(TFS)。目前,TFS中存储的图片规模已经达到百亿级别。
    + R. @. y" i$ J2 ~TFS架构设计时需要考虑如下两个问题:
    ; Z2 _( `, w3 x, W●Metadata信息存储。由于图片数量巨大,单机存放不了所有的元数据信息,假
    2 N1 D1 E% S1 d4 p  o5 \5 e3 F设每个图片文件的元数据占用100字节,100亿图片的元数据占用的空间为
    % K/ v* d, c0 ~9 q/ ^0 L10G×0.1KB=1TB,单台机器无法提供元数据服务。
    5 a  U& X, f$ X3 m7 a●减少图片读取的IO次数。在普通的Linux文件系统中,读取一个文件包括三次; v. L8 ?0 Z6 B' w# a0 z9 l
    磁盘IO:首先读取目录元数据到内存,其次把文件的inode节点装载到内存,最后读6 N% k  j0 P3 J
    取实际的文件内容。由于小文件个数太多,无法将所有目录及文件的inode信息缓存) R3 a# q7 E/ s  ?8 t
    到内存,因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。2 u/ i, W3 A) y. [7 H
    因此,TFS设计时采用的思路是:多个逻辑图片文件共享一个物理文件。
    " {: j, Q7 U. |4 X4.2.1 系统架构' J+ G& z' J+ J1 @4 R. r
    TFS架构上借鉴了GFS,但与GFS又有很大的不同。首先,TFS内部不维护文件
    2 v# x" {+ g0 M- I目录树,每个小文件使用一个64位的编号表示;其次,TFS是一个读多写少的应用,3 g# k& H+ `+ y8 O: M2 F/ |
    相比GFS,TFS的写流程可以做得更加简单有效。" a+ _  c& r; T- V3 K
    如图4-4所示,一个TFS集群由两个NameServer节点(一主一备)和多个) g1 ?1 F4 b2 I# H9 Y3 n
    DataServer节点组成,NameServer通过心跳对DataSrver的状态进行监测。NameServer( E4 _3 `7 z# R& C$ }7 f0 }
    相当于GFS中的Master,DataServer相当于GFS中的ChunkServer。NameServer区分为主+ ]% w" e  U; Q$ o7 f
    NameServer和备NameServer,只有主NameServer提供服务,当主NameServer出现故障
      F2 N1 B  Y7 Q7 A* t& o6 x( a0 `时,能够被心跳守护进程检测到,并将服务切换到备NameServer。每个DataServer上1 X  S& {* l& G7 W, ?
    会运行多个dsp进程,一个dsp对应一个挂载点,这个挂载点一般对应一个独立磁盘,0 b  S' V: ?6 X  {
    从而管理多块磁盘。
    : N$ y: m! M. p6 F7 \  t图 4-4 TFS整体架构. X, ]. _1 |0 v# ?
    在TFS中,将大量的小文件(实际数据文件)合并成一个大文件,这个大文件称+ s2 i3 F8 {  L& n
    为块(Block),每个Block拥有在集群内唯一的编号(块ID),通过<块ID,块内偏
    ) U1 F; u1 U! C- w9 k移>可以唯一确定一个文件。TFS中Block的实际数据都存储在DataServer中,大小一
    7 W3 S" n" C, ~7 C9 A! \般为64MB,默认存储三份,相当于GFS中的chunk。应用客户端是TFS提供给应用程
    : a" z/ c* a6 H! J9 Y序的访问接口,应用客户端不缓存文件数据,只缓存NameServer的元数据。
    # i; x( a1 w6 L; Y; \& V1.追加流程
    ) ]$ j) g$ {, ^, f! g( l6 yTFS中的追加流程相比GFS要简单有效很多。GFS中为了减少对Master的压力,3 D0 W! H0 Y7 K1 D
    引入了租约机制,从而将修改权限下放到主ChunkServer,很多追加操作都不需要
    1 l; f- W! D+ D0 W( Y$ gMaster参与。然而,TFS是写少读多的应用,即使每次写操作都需要经过NameNode" O' ?' g! d9 u! D& T: S& h6 f
    也不会出现问题,大大简化了系统的设计。另外,TFS中也不需要支持类似GFS的多4 _- Q: C/ u( I1 [' p% Y5 B
    客户端并发追加操作,同一时刻每个Block只能有一个写操作,多个客户端的写操作
    # j" b4 J; U' w会被串行化。
    1 x5 V$ n/ E3 q5 ]) Q如图4-5所示,客户端首先向NameServer发起写请求,NameServer需要根据
      m# m, _: x8 @7 kDataServer上的可写块、容量和负载加权平均来选择一个可写的Block,并且在该
    0 ~  N: S$ C- V# f" C4 fBlock所在的多个DataServer中选择一个作为写入的主副本(Primary),其他的作为- y& a7 }3 X& |' e) f- i/ g
    备副本(Secondary)。接着,客户端向主副本写入数据,主副本将数据同步到多个
    ( k# \6 F$ R. w$ n, X; J& }6 W备副本。如果所有的副本都修改成功,主副本会首先通知NameServer更新Block的版+ W# q2 t  t- C
    本号,成功以后才会返回客户端操作结果。如果中间发生任何错误,客户端都可以
    3 k! O; H) Q4 c4 i: [3 k从第一步开始重试。相比GFS,TFS的写流程不够优化,第一,每个写请求都需要多次- `3 t' ^$ R5 z: b8 U% H
    访问NameServer;第二,数据推送也没有采用流水线方式减小延迟。淘宝的系统是
    + M; b# u  X& M6 A需求驱动的,用最简单的方式解决用户面临的问题。
    2 j1 ]2 p1 j2 A+ E, H3 x. k% t" G图 4-5 TFS追加流程
    5 T# J- ?/ |, v8 s3 B每个写操作返回后,会返回客户端两个信息,小文件在TFS中的Block编号" L* T( M' j+ b& k1 r7 W6 y
    (Block id)以及Block偏移(Block offset)。应用系统会将这些信息保存到数据库) R6 d6 q9 D5 g& g7 x+ w
    中,图片读取的时候首先根据Block编号从NameServer查找Block所在的DataServer,
    * j* e2 v5 k) o8 c4 J然后根据Block偏移读取图片数据。TFS的一致性模型保证所有返回给客户端的<) w, R$ P! F  Q7 ^* r
    Blockid,Block offset>标识的图片数据在TFS中的所有副本都是有效的。
    9 }2 b, x, h7 {6 @, v6 e8 M& O/ j- s2.NameServer
    / e9 k9 I) x1 i0 \8 p, c* v+ oNameServer主要功能是:Block管理,包括创建、删除、复制、重新均衡;Data-
    # H7 }2 ~0 E* I9 Z( MServer管理,包括心跳、DataServer加入及退出;以及管理Block与所在DataServer之! x* F1 p' A+ p. H! ]' c# _
    间的映射关系。与GFS Master相比,TFS NameServer最大的不同就是不需要保存文件
    7 S6 b' m" E3 D+ w! {& S- I目录树信息,也不需要维护文件与Block之间的映射关系。1 G& D0 m( p( {  f
    NameServer与DataServer之间保持心跳,如果NameServer发现某台DataServer发+ w: ?6 ?6 E  w2 E$ e
    生故障,需要执行Block复制操作;如果新DataServer加入,NameServer会触发Block3 Q% F7 P/ ]. ~7 U
    负载均衡操作。和GFS类似,TFS的负载均衡需要考虑很多因素,如机架分布、磁盘
    6 p# i! H+ L9 D( T利用率、DataServer读写负载等。另外,新DataServer加入集群时也需要限制同时迁
    0 e# ]8 Z: `& D: w0 Q4 `入的Block数量防止被压垮。
    ( H" v9 i8 `: W+ g: ]NameServer采用了HA结构,一主一备,主NameServer上的操作会重放至备
    ( s7 i2 E$ J  h! |" T% n, CNameServer。如果主NameServer出现问题,可以实时切换到备NameServer。8 t* E  q: a5 r8 k8 A5 A
    4.2.2 讨论
    ; g* s" B) t1 m" y  E图片应用中有几个问题,第一个问题是图片去重,第二个问题是图片更新与删
    $ n4 z/ u# w# f1 ~除。
    % G' P! U* w4 k# ]$ b7 E由于用户可能上传大量相同的图片,因此,图片上传到TFS前,需要去重。一般
    ) B* H& J5 R4 B8 U) Y' g在外部维护一套文件级别的去重系统(Dedup),采用MD5或者SHA1等Hash算法为
    0 \1 K% f1 R1 {/ [  W图片文件计算指纹(FingerPrint)。图片写入TFS之前首先到去重系统中查找是否存
    & G8 C+ D& W$ T: _. w* I在指纹,如果已经存在,基本可以认为是重复图片;图片写入TFS以后也需要将图片& o7 p' F5 |, A% T! [, p& P
    的指纹以及在TFS中的位置信息保存到去重系统中。去重是一个键值存储系统,淘宝$ q, S/ v5 F3 O* I
    内部使用5.2节中的Tair来进行图片去重。
    ( Q- ]; S; G0 d! b- B  Q图片的更新操作是在TFS中写入新图片,并在应用系统的数据库中保存新图片的; f; n1 H3 W& r
    位置,图片的删除操作仅仅在应用系统中将图片删除。图片在TFS中的位置是通过<
    ) S* C2 U; Z5 n+ [$ [& ]4 L: `# r* U/ {' NBlock id,Block offset>标识的,且Block偏移是在Block文件中的物理偏移,因此,每* R) g' @: W3 [' z
    个Block中只要还有一个有效的图片文件就无法回收,也无法对Block文件进行重整。
    ) {+ F8 }+ a4 @' `( G如果系统的更新和删除比较频繁,需要考虑磁盘空间的回收,这点会在Facebook8 \/ i; ]$ Q1 ^, A7 z! j, `
    Haystack系统中具体说明。4 M: I. x2 U/ J- c& R3 M
    - Z; \2 O# F" y" l1 k+ L
    , I* f( n; a) Q, H- E
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2024-5-7 10:16 , Processed in 0.105777 second(s), 30 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表