WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

评测导购 > 存储虚拟化 > 正文
论虚拟存储技术及其在视频网络中的应用
作者: 51cto.com 2006-01-17 14:52 【】

一、存储需求催生虚拟存储

随着围绕数字化、网络化开展的各种多媒体处理业务的不断增加,电视台的媒体数据正日益膨胀。数据存储变成了新的难题,存储系统网络平台已经成为各种网络系统中的一个核心平台。视频网络中的各种应用对存储网络平台的要求也越来越高,它不仅表现在对存储容量的要求,还包括对数据访问性能、数据传输性能、数据管理能力、存储扩展能力等等多个方面的要求。具体表现有一下几点:

1、支持从异构主机到异构存储系统的透明访问。即服务器可以运行异构操作系统,例如Windows、Unix或Linux等等。存储设备可以来自不同的供应商,无论是EMC、康柏、HP、还是StorageTek的存储设备,都可以顺利地接入系统。

2、支持24×7小时的数据可用性。我们知道,电视台网络系统的时效性是很强的,这样就要求网络系统必须具有极高的可靠性。首先要求系统有较高的容错性,例如控制器要有高可容错性,存储子系统要求具备容错冗余;其次故障恢复时间要求很短,或尽可能做到进行系统维护、设备更换时,不中止应用程序的使用。

3、高性能的数据访问。非线性制作网络中的编辑工作站任何时候都需要无阻碍的实时、快速的获得所需要的各种数据。

4、数据安全性。只允许有访问权的用户进行相应数据的访问,同时能够提供灵活的备份方案和措施,支持数据保护和恢复;

5、平滑的存储容量扩展。视频网络的建立是受建网时所处的技术、具体工作需要所限制的。任何单位都要或多或少地面对网络升级的问题,我们希望存储网络上添加存储设备的过程是透明,而且任何工作站都不需停机。

6、简化管理、降低管理成本。客户是产品的使用者,所以越来越多的系统操作环境,使用不同厂商的硬件和软件产品,且彼此不能兼容,管理起来的确不是一件轻松的事情。操作友好、管理简单是未来产品的发展目标。

这些对存储网络平台的要求归结起来就是:如何以有限的人力、物力资源,经济有效地管理不断增长的数据,简化管理异构操作环境的复杂性。虚拟存储技术以其独特的优势成为广播电视行业应对上述挑战的最佳解决方案。

二、虚拟存储的概念及特点

一段时间以来,不同版本的虚拟存储(Storage Virtulization)概念相继涌现,有从软件角度诠释的,也有从硬件角度进行例证的。每个厂商都有根据对虚拟技术的理解向用户提供的实用产品。在虚拟存储方面真可谓百家争鸣,所以很难对虚拟存储的概念给出一个清晰而准确的描述。

尽管如此,总结一些虚拟存储的共同特性可以看出,所谓虚拟存储,就是把多个存储介质模块(如磁盘、磁盘阵列)通过一定的手段集中管理起来,所有的存储模块在一?quot;存储池"(Storage Pool)中得到统一管理。在虚拟存储环境下,无论后台物理存储是什么设备,服务器及工作站看到的都是其熟悉的存储设备的逻辑镜像。即使物理存储发生了变化,这种逻辑镜像也不会改变,系统管理员不必关心后台存储,只需专注于管理存储空间,所有的存储管理操作,例如系统升级、建立和分配虚拟磁盘、改变RAID级别、扩充存储空间等都比以前容易的多,存储管理变得轻松简单。

从用户的角度来看,可以用一句更简单的话来概括虚拟存储--使用存储空间而不是使用物理存储硬件(磁盘、磁带),管理存储空间而不是管理物理存储硬件。

虚拟存储具有以下几个特点:

1、虚拟存储可以大大提高存储系统的整体访问带宽,这也是其对于视频网络系统来说最有价值的一个特点。我们知道,视频网络的存储系统一般是由多个存储模块组成,而虚拟存储系统可以很好地进行负载平衡,把每一次数据访问所需要的带宽合理地分配到各个存储模块上,这样系统的整体访问带宽就增大了。例如,一个存储系统中有4个存储模块,每一个存储模块的访问带宽为50MB/s,则这个存储系统的总访问带宽就可以接近各存储模块带宽之和,即200MB/s。

2、虚拟存储提供了一个大容量存储系统的集中管理手段,由网络中的一个环节 (如服务器)进行统一管理,避免了由于存储设备扩充而带来的管理方面的麻烦。例如,使用一般的存储系统,当在增加新的存储设备时,整个系统(包括网络中的诸多用户设备)都需要重新进行繁琐的配置工作,这样才可以使这个"新成员"加入到存储系统中。而使用虚拟存储技术,在增加新的存储设备时,只需要网络管理员对存储系统进行较为简单的系统配置更改,客户端无需任何操作、只是感到存储系统的容量增大了。

3、虚拟存储技术为存储资源管理提供了更好的灵活性。它可以将不同类型的存储设备集中管理使用,保障了用户以往购买存储设备的投资。

三、虚拟存储的实现方式

随着越来越多的厂商都在发展各自的技术,虚拟存储技术已经融合到存储系统结构的各个环节中。从系统的观点看,有三种主要的虚拟存储实现方式:基于服务器的虚拟存储、基于存储设备的虚拟存储以及基于存储网络的虚拟存储。如图1所示。

下面对这三种虚拟存储的实现方式分别进行介绍。

1、基于服务器的虚拟存储

基于服务器的虚拟存储是通过将虚拟化层放在服务器上实现的。这种实现方式不需要额外的特殊硬件,虚拟化层以软件模块的形式嵌入到服务器的操作系统中,将虚拟层作为扩展驱动模块,为连接服务器的各种存储设备提供必须的控制功能。

这种方法有其自身不可避免的缺点:首先,兼容性不好,由于虚拟化层驻留在服务器上,因而软件模块就必须能嵌入到各种类型的操作系统中,增加了软件实现的难度。因此,这种方法往往适合配置在系统采用同一个厂商的服务器,甚至是一个同构的存储环境中。这显然增加了用户的设备依赖性和局限性;其次,需要采用集中管理策略,这种虚拟化的技术实际上是在一个分布式的环境中实现的,当任何一个服务器对数据进行恶意或非法的操作时,就可能会影响到所有连接到存储设备的数据的完整性和一致性,因此需要适当的集中管理策略; 最后,这种实现方法从客观上造成了主机的负载和复杂度的增加。

但是,因为不需要任何附加硬件,基于服务器的虚拟实现方式最容易实现,其成本最低。目前已经有成熟的这类软件产品。这些软件可以提供便于使用的图形界面,方便地用于存储的管理和虚拟,在主机和小型存储系统中有着良好的负载平衡机制。从这个意义上看,基于服务器的存储虚拟是一种性价比不错的方式。

2、基于存储设备的虚拟存储

基于存储设备的虚拟存储是将虚拟化层放在存储设备的适配器、控制器等上来实现的。这种实现方式从理论上说性能是最优的,它能够充分考虑存储设备的物理特性,并且将服务器从虚拟存储的实现工作中解放出来,直接在存储设备上实现,方法简单,也为用户和系统管理员提供了最大的方便性。但是,基于存储设备的虚拟存储对存储容量的扩展有很大限制,同时,对于包含多家厂商存储设备的存储系统来说,这种方法的运行效果并不是很好。

最典型的虚拟存储璞甘谴排陶罅校≧AID)。RAID的虚拟化是由RAID控制器实现的,它将多个物理磁盘按不同的分块级别组织在一起,通过CPU及阵列管理固件来控制及管理硬盘,解释用户的I/O指令,并将它们发给物理磁盘执行,从而屏蔽了具体的物理磁盘,为用户提供了一个统一的具有容错能力的逻辑虚拟磁盘,这样用户对RAID的存储操作就像对普通磁盘一样。

3、基于网络的虚拟存储

从技术上讲,在网络端实施虚拟存储的结构形式有以下两种:对称式与非对称式,下面就对这两种结构形式分别加以介绍:

(1)对称式虚拟存储

从图2可以看出,对称式虚拟存储就是指进行虚拟存储管理和控制的高速存储控制设备(High Speed Traffic Directors,缩写为HSTD)置于网络系统的传输通道上。HSTD与存储池子系统(Storage Pool)集成在一起,组成存储区域网络应用系统(SAN Appliance)。

在该虚拟存储形式中HSTD在服务器与存储池数据交换的过程中起到了核心作用。其虚拟存储过程可以这样描述:由HSTD内嵌的存储管理系统将存储池中的物理硬盘虚拟为逻辑存储单元(LUN),并进行端口映射(就是指定某一个LUN能被哪些端口所见),在服务器端,将各个可见的逻辑存储单元映射为操作系统可以识别的盘符。当服务器向存储网络系统中写入数据时,用户只需要将数据写入到指定为自己所用的映射的盘符(LUN),数据经过HSTD的高速并行端口,先写入高速缓存,HSTD中的存储管理系统自动完成目标位置由LUN到物理磁盘的转换,在此过程中用户见到的只是虚拟逻辑单元,而不必关心每个LUN的具体物理组织结构。该存储形式具有以下主要优点:

·采用大容量高速缓存,显著提高数据传输速度。缓存是存储系统中广泛采用的位于主机与存储设备之间的I/O路径上的中间介质。当服务器从存储设备中读取数据时,会把与当前数据存储位置相连的数据读到缓存中,并把频繁调用的数据保留在缓存中;当服务器读数据时,在很大几率上能够从缓存中找到所需要的数据。这样就可以直接从缓存上读出,我们知道从缓存上读取数据的速度要远大于从硬盘中读取数据的速度;当服务器向存储设备写入数据时,先把数据写入到缓存中,待服务器端写入动作停止,再从缓存中将数据写入硬盘,这种写入方式同样高于直接写入硬盘的速度;

·采用多端口通道并行技术,增加数据带宽。我们知道在传统的FC存储设备中,控制端口与硬盘之间的关系是固定的,访问一块硬盘只能通过控制它的控制器端口进行。在对称式虚拟存储设备中,SAN Appliance的存储端口与LUN的关系是虚拟的,也就是说多台服务器可以通过多个存储端口(最多8个)并发访问同一个LUN。在光纤通道100MBps带宽的大前提下,并行工作的端口数量越多,数据带宽就越高;

· 逻辑存储单元提供了高速的磁盘访问速度。在视频网络中,应用程序读写数据时以固定大小的数据块为单位(从512byte到1MB之间)。而存储系统为了保证应用程序的带宽需求,往往设计为传输512byte以上的数据块时才能达到其最佳I/O性能。在传统SAN结构中,当容量需求增大时,唯一的解决办法是多块磁盘(物理或逻辑的)绑定为带区集,实现大容量LUN。在对称式虚拟存储系统中,为服务器提供真正的超大容量、高性能LUN,而不是用带区集方式实现的性能较差的逻辑卷。与带区集相比,Power LUN具有很多优势,如更大的数据块会真正被存储系统所接受,有效地提高了数据的传输速度,同时,也减少了由于带区集而带来的不稳定因素。

但是对称虚拟存储也存在一些不足:

·由于虚拟存储的控制交换设备直接存在于服务器和存储设备之间,所有服务器对存储设备的访问都要经过它的通道与管理。为了使控制交换设备不成为整个系统的带宽瓶颈,该设备就需要有很大容量的缓存(Cache)来用于进行数据交换,所以通常这种控制交换设备都比较昂贵;

·同样由于虚拟存储的控制交换设备直接存在于服务器和存储设备之间,因此该设备的安全性对于整个系统就是至关重要的, 一旦它出现故障,所有数据通道将被阻塞,造成网络系统数据传输崩溃。

(2)非对称式虚拟存储

非对称式虚拟存储结构如图3所示。

从图3可以看出,非对称式虚拟存储就是在服务器和存储设备之间正常的数据访问传输通道之外,通过配置一个虚拟存储管理器来实现存储器池的虚拟化处理。

虚拟存储管理器通过其FC端口连接到存储网络中,并提供一个中央管理点,对整个存储网络进行集中管理,同时,它还对磁盘阵列进行虚拟化操作,将各阵列中的LUN虚拟为逻辑带区集(Strip),并指定每台服务器对每一个Strip的访问权限(可写、可读、禁止访问等)。服务器在访问Strip时,首先通过控制路径,向虚拟存储管理器的代理发出访问Strip的请求,代理根据其请求的合法性,为服务器建立访问Strip的数据通道,进行规定的读或写操作。非对称虚拟存储与对称式虚拟存储相比较有如下优点:

·虚拟存储控制器只是进行对所有存储设备的软件配置和将这些配置与管理信息传送给各服务器的工作,因而其无需大量的和高价性的硬件部件,其价格就相对较低。

·将不同物理硬盘阵列中的容量进行逻辑组合,实现虚拟的带区集,将多个阵列控制器端口绑定,在一定程度上提高了系统的可用带宽;

·虚拟存储控制器不在实际的数据通道上,它的硬件性能不会成为系统带宽的瓶颈,同时,即使它出现故障,也不会引起网络系统的数据通道阻塞,提高了系统的安全性。

但是非对称虚拟存储也存在一些不足:

·非对称虚拟存储的安全性相对较差。它在本质上还是带区集--磁盘阵列结构,一旦带区集中的某个磁盘阵列控制器损坏,或者这个阵列到交换机路径上的铜缆、GBIC损坏,都会导致一个虚拟的LUN离线,而带区集本身是没有容错能力的,一个LUN的损坏就意味着整个Strip里面数据的丢失;
·由于非对称虚拟存储的带宽提高是通过阵列端口绑定来实现的,而普通光纤通道阵列控制器的有效带宽仅在40MB/s左右,因此要达到几百兆的带宽就意味着要调用十几台阵列,这样就会占用几十个交换机端口,在只有一两台交换机的中小型网络中,这是不可实现的。

四、 虚拟存储在视频网络中的应用

1、在分级存储(HSM)管理系统中的应用

国内的视频公司如索贝、大洋都开发出了各自的媒体资产管理系统。在媒体资产管理系统的存储模式设计中,他们都推出了在线(On-line)、近线(Near-line)、离线(Off-line)三级相互结合的存储模式。如图4所示是近线存储的系统结构示意图。

从图4我们可以看出,近线存储实际上就是一个分级存储系统,它采用的是分级存储的三层次的存储架构,即它由承担在线存储的磁盘阵列、近线存储的光盘库和离线存储的磁带库三部分来组成。而典型的服务器端虚拟存储主要是指分级存储,也就是用磁带库来做虚拟磁盘。在服务器的磁盘容量不足或者希望用较廉价的磁带来仿真较昂贵的磁盘的时候,常常采用这种方案。

在业内引起很大反响的 "中央电视台新闻共享系统"采用了StorageTek公司的近线存储解决方案,下面就以StorageTek公司的VSM (虚拟存储管理系统)为例,来介绍虚拟存储技术在HSM中的应用。

传统的存储环境下,客户选择磁带和自动磁带库主要用于备份,但是越来越多的客户考虑到价格因素,开始用磁带代替磁盘用于某些应用,然而,服务器本身的设计造成磁带介质的使用率低下,当将数据存入磁带盒时,只能存入一组数据。根据数据量的大小,没被使用起来的磁带盒容量可高达99%。所以,即便客户使用自动磁带库,他们也只能将20%~50%的并经常使用的磁带盒放入磁带库自动操作,其他的仍放在手工操作的架子上。

StorageTek公司的VSM (虚拟存储管理系统) 是为有效和充分地使用磁带介质和磁带机驱动器资源而设计的虚拟存储解决方案。其利用磁盘缓存仿真成虚拟的磁带机和磁带介质。也就是说,一个物理磁带机可以被虚拟仿真成多台磁带机的镜像。多个虚拟磁带卷经叠加后才写入物理磁带介质上,这样就有效地并充分地使用磁带介质和磁带机。

VSM由一系列硬件和智能软件产品组成。VSM 的硬件主要是VTSS--虚拟磁带子系统和自动磁带库产品,VSM的软件主要包括VTCS(虚拟磁带控制系统)、ExPR(专业性能报告系统) 和控制自动磁带库的 HSC(主机软件部件) 软件。

图5是虚拟磁带子系统的示意图,物理磁带机或磁带库被放置在磁盘缓存的后面。VSM将存储在磁盘缓存中的虚拟磁带卷迁移到真正的物理磁带上,这个过程不占用服务器资源。被迁移出去的虚拟磁带卷可以从磁盘缓存中删除,释放的磁盘空间用以存放新的虚拟磁带。被迁移出去的虚拟磁带卷也可以保留一段时间再删除,以便需要用它进行恢复。

当需要从虚拟磁带卷上恢复数据时,如果该虚拟磁带仍存放在磁盘缓存中,那么可以直接从磁盘缓存恢复到服务器磁盘上;如果该虚拟磁带已被迁移并且已从磁盘缓存中删除,那么可以从存放该虚拟磁带卷的物理磁带上将数据恢复。多个虚拟磁带卷(VTV)可以合并叠加后写到一盘物理磁带介质(MVC)上。这样做,一方面可以确保备份数据的安全,另一方面可以充分利用大容量磁带介质的容量。

VTCS软件是HSC软件的扩充,它们配合起来工作,决定哪些作业备份数据写入虚拟磁带子系统,哪些直接写到物理磁带上。对于要被写入虚拟磁带系统的数据,VTCS负责分配虚拟磁带驱动器(VTD)和虚拟磁带卷(VTV),并完成虚拟的装带/卸带工作。

图6所示是VSM的工作原理,首先我们可以看出VSM是通过ESCON通道与主机相连接。VSM 将磁盘系统仿真成虚拟的3490E磁带机驱动器和3490E磁带介质,以磁盘作为缓存。也就是说,一个物理磁带机可以被虚拟仿真成多台磁带机的镜像,多个虚拟磁带卷(VTV)经叠加后才写进物理磁带卷(MVC)上。大部分磁带操作都直接面对磁盘缓存的、虚拟磁带的装带。装带/卸带都是在瞬间完成的(仅需20秒),提高了素材从近线设备迁移到在线设备的效率。

2、在存储区域网络(SAN)中的应用

目前以SAN为代表的网络存储技术被公认为是存储业界的重要发展方向,SAN具有高可用性、高可扩展性、高性能及集中存储管理等诸多优点,但同时它也存在一些与生俱来的问题:互操作性比较差,导致不同提供商的产品难以兼容;复杂的体系结构增加了管理复杂度等。

采用什么措施才能改变SAN的种种问题呢?于是就有人提出了SAN内部虚拟化的解决方案,就是VSAN。SAN内部的虚拟化的实现,就是在原有SAN体系结构中加入一个新的虚拟化层架构。通过这个虚拟化层,可以将多种设备上比较小的存储容量集合起来,虚拟成一个大的磁盘,提高存储容量的使用率,为应用程序和用户提供SAN的全局逻辑虚拟化视图。服务器不必关心后端物理设备的物理特性,也不会因为物理设备发生任何变化而受影响。这样从用户和应用程序来看,原来复杂结构的SAN就是一个结构相对简单的、具有统一界面的虚拟存储池,它对用户和应用程序完全透明,而存储池中逻辑存储单元的具体细节则只是系统管理员所关心的问题。管理员可以通过GUI等图形用户界面让很多服务器共享后端的存储池,因而大大提高了系统管理员的工作效率。

目前,国内的视频厂商已经推出了各自的基于虚拟SAN结构的技术,比较有代表性有大洋公司的SDD技术、索贝公司的虚拟存储技术(SVM),以及现在流行的并行处理技术S2A系列存储系统,下面就分别给予介绍。

(1)基于FC技术的以SDD为核心的SAN结构网络

SDD(SAN DataDirector,简称SDD)是一种新型的集中存储设备,它的核心技术是DataDirect Networks公司提出的新一代SAN技术,其实质是对称式虚拟存储技术。它将交换、缓存、RAID、I/O、ASIC以及数据和文件的管理集于一身,并可以完成数据和网络的管理,为数据交换提供高带宽、高容错的集中存储访问。 SDD内部有二个完全相同的组件,称之为HSTD(High Speed Traffic Directors)。每个HSTD有四个100MB/s带宽流量的数据交换端口,称之为HOST。一个SDD拥有二个HSTD的800MB/s带宽。HOST端口可直接与服务器、工作站相连,也可与光通道交换机相连。每个HSTD还有一个60芯的数据总线用于和硬盘阵列相连完成数据交换。SDD具有5GB容量的数据缓存能力,为整个系统读写公用, 从而保证大量数据的持续读写性能。如图7是基于SDD的网络结构图:

SDD主要技术优势有以下几点:

·带宽处理能力大幅提高。内建强大的RAID引擎,它的处理能力远大于磁盘通道和服务器通道标称的带宽,使阵列的控制器不会成为瓶颈。单个SDD可提供高达800Mb/s带宽。同时提供广泛的、线性的性能提升;
·扩展性好。在SDD网络中,FC交换机都与SDD控制器相连处于并行工作状态且互不影响。当站点增加时,不用交换机级联,只需将新的FC交换机接入SDD即可,不用改动以前的连接。带宽得到线性增长,能构架大型网络;
·稳定性、安全性好。网络结构简单,连接点少,出错的机率小,易判断出错点。SDD网络结构连接简单,故障点少。在存储硬盘与SDD,FC交换机与SDD之间都采用双链路备份,容错能力强。

(2) 基于FC技术的以STOREAGE为核心的虚拟存储网络系统

如图8是以STOREAGE为核心的虚拟存储网络系统,其特性是利用多个硬盘塔和专用的控制器,实现网络存储带宽扩展,其实质是非对称式虚拟存储系统。实际上,它和SDD的原理都是加大了RAID控制器的带宽,只不过SDD是采用了集成在内部专门的控制器,而STOREAGE是利用外部的虚拟存储设备控制器(SVM)将已有的RAID控制器带宽聚合起来。SVM处于系统数据通道之外,不直接参与数据的传输,服务器可以直接经过交换机对存储设备进行访问。SVM只对多存储设备进行读/写操作的通道端口配置,然后将配置信息提交所有服务器。各服务器在访问存储系统时,数据流不再经过虚拟存储控制器,而直接使所有存储设备并发工作,达到增大传输带宽。比如可以用四个硬盘塔,实现14*100Mb/s的写入数据,26*100Mb/s的读出数据。

和SDD比起来,它的优势在于:

·SVM只是进行对所有存储设备的配置和将这些配置与管理信息传送给各主机的工作,主要利用软件来完成该项工作,无需大量和高价的硬件部件,价格较低;
·SVM不在实际的数据通道,硬件性能不会成为系统带宽的瓶颈;
·存储系统可以对已有的系统升级,即只需增加硬盘塔和SVM控制器。配置比较灵
活,技术开放性好;
·SVM系统保持标准SAN结构,为系统互连和扩展提供技术保障。
但是,这种存储结构有个致命的缺点,就是在利用软件来完成存储设备的配置并把这些配置与管理信息传给各主机的工作时,在交换机中保存许多信息,工作一段时间,交换机中就存在大量的冗余信息,这样容易造成交换机的端口堵塞,严重时能造成交换机的死机。

(3)新一代并行存储技术S2A系列高性能存储系统

继推出SDD存储技术后,DDN公司又推出了新一代并行存储技术S2A系列高性能存储系统。产品系列包括S2A3000、S2A6000和S2A8000。目前,中央电视台、广州电视台等许多家电视台的视频网络都采用了这种存储技术。

S2A全面提升了SAN技术的三个重要性能指标:存储容量、计算能力和传输能力,使它们均衡发展提供均衡的性能输出,全面满足了高性能存储的需要。S2A无论从其针对视频的带宽要求还是安全特性方面,都非常适合目前电视台节目制作系统的集中在线存储,S2A是Datadirect公司提出的SAN Appliance(存域网络设备)概念的产品,把交换设备、RAID设备、连接设备以及管理设备整合为一个统一的整体,为用户提供一个完全透明的、高性能的、高安全性的以及可管理性的存储设备。它提供了一整套系统管理软件,其中一个就是Vlun Manger(虚拟逻辑单元管理器),Vlun Manger提供存储资源管理,可以任意分配所需要的存储资源为需要访问的主机设备访问,提高了系统资源使用的灵活性。如图9 所示是某家电视台基于S2A6000构建的新闻共享系统的存储系统。

 

五、 结论

今天,虚拟存储已经不在是一个概念,而是一项成熟的、可实施的技术。尽管虚拟存储技术目前并未解决自身遇到的种种问题,比如目前还没有一个行业标准,但可以肯定一点的是,在不久的将来,它将成为广电行业数据处理的一种标准。


标签:存储虚拟化 

了不起的IT经理
LecVideo
论坛与活动