互联网分布式存储入门

互联网分布式存储入门

作者:互联网技术面试 2018-02-24 13:50:59

存储

存储软件

分布式 在Google、Amazon、腾讯等大型互联网公司里,因为业务广泛,有大量的用户数据需要保存,因此分布式存储系统往往成为该类公司的一个基础设施。分布式存储涉及到单机存储引擎、分布式系统协议等众多领域,该篇文章作为一个入门,带领大家认识分布式存储系统的基本概念。

在Google、Amazon、腾讯等大型互联网公司里,因为业务广泛,有大量的用户数据需要保存,因此分布式存储系统往往成为该类公司的一个基础设施。分布式存储涉及到单机存储引擎、分布式系统协议等众多领域,该篇文章作为一个入门,带领大家认识分布式存储系统的基本概念。

分布式存储应该满足的基本条件

  • 可扩展

以微信朋友圈的图片为例,随着微信运营时间的增长,需要保存的朋友圈图片必然是越来越多的,因此保存这些图片的分布式存储系统必须可扩展。

  • 低成本

对于大型互联网公司来讲,要保存的数据量非常大,因此成本是考量一个存储系统是否可上线运营非常重要的一个指标。

  • 高性能

无论是对整个分布式存储集群还是针对单机的存储引擎,都需要高性能的保证,否则低成本就无从谈起。

  • 易用性

分布式存储系统作为一个基础设施,必须具备足够的易用性,才能更好地服务于各个业务。比如Amazon的S3,接口形式统一,接入简单。

分布式存储系统面临的主要技术挑战

  • 数据分布

整个存储系统是一个集群,如何保证数据均匀分布到多台服务器?假设某一数据被拆分存储到多台服务器后,又该如何实现跨服务器读写?

  • 一致性

出于数据可靠性的考虑,同一份数据必然是保存多份的,如何保证这多份数据的一致性?

  • 容错

对于一个集群而言,机器出现故障是必然的。如何在出现故障时做到及时发现,并且自动把故障机器上的数据和服务迁移到非故障机器?

  • 负载均衡

任何一个集群系统都存在负载均衡的策略问题,分布式存储系统自然不例外。

  • 事务与并发控制

如果要求该分布式存储系统支持事务和并发控制功能,该如何实现?

  • 易用性

易用性前面有提,不再赘述。

  • 压缩/解压缩

怎样根据数据的特点设计、选用合理的压缩/解压缩算法以平衡压缩带来的空间节省和消耗的CPU计算资源。

分布式存储系统存储的数据分类

互联网业务涉及的数据一般可以分为三大类:

1.非结构化数据

典型的如图片、音视频文件等。

2.结构化数据

传统的用关系型数据库保存的二维表结构数据。

3.半结构化数据

介于结构化数据和非结构化数据之间,典型的比如HTML文档。

分布式存储系统分类

基于上述数据类型存储的实际需要,分布式存储系统逐渐演化为以下四种类型:

1.分布式文件系统

一般用于存储非结构化数据。比如HDFS、TFS(Taobao File System)、FastDFS等。

2.分布式键值系统

可以通俗地理解为hash表,如淘宝的Tair、Redis、memcached等,一般用于存储半结构化数据。

3.分布式表格系统

也用于存储非结构化数据,相比分布式键值系统,不单单提供基于主键的读写,还支持对某个主键范围进行扫描,典型的比如Google的Big Table。

4.分布式数据库

由单机数据库发展而来,用于存储结构化数据。典型的如MySQL Sharding集群。

名称栏目:互联网分布式存储入门
URL标题:http://www.mswzjz.cn/qtweb/news4/319354.html

攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能