WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

评测导购 > 机房 > 正文

解析信息生命周期管理所面临的挑战

Watchstor.com  佚名丨2009-10-07 15:46 标签:机房 ILM 

信息生命周期管理在数据管理和数据存储方面的前景是非常诱人的,本文对其在现实中所遇到的五个问题进行了分析并逐一的介绍了其五种实现办法。

信息生命周期管理实际应用和研究中却不得不面对很多的问题,比如:

1. 如何根据商业的需求来给定信息的价值;

2. 如何根据信息的价值来划分服务等级目标;

3. 如何将数据划归不同的服务等级中;

4. 如何根据底层的存储设备提供的不同的服务能力来划分存储的层次;

5. 如何在不同的服务等级与底层提供的存储服务之间进行映射。

这几个问题更准确地说应该属于一种概念上或者说理论上的问题,同时也是实现和研究一个系统所必须考虑的问题。

从目前国内外的基本研究现状来看,对于信息生命周期管理的研究还是非常不足的,一个方面表现在这方面的研究文献非常少,另一个方面是很多问题还没有得到解决,而且关于信息生命周期的实现和框架也缺乏一个统一的公认的标准。这些不足在上述的五个问题中也得到了一定的体现,其中前两个问题主要依靠在自己的数据中心实现信息生命周期管理的公司或者组织内部人员(例如:商务线上的工作人员、知识工人以及I.T.管理员等),共同根据商务需求来协商决定定义信息的价值,并划分一定的服务等级。在这个过程将耗费组织大量的人力物力,当然也无从谈起信息生命周期管理的自动化。

在信息生命周期管理的研究中,对于1、2这两个问题一般很少提及或者简单提到需要公司或组织内部结成一个小组来处理这些问题。个人认为对这一方面的学术研究,尤其是自动化等问题的研究,将面临重大的困难。

对上文的第三个问题的研究是目前信息生命周期管理研究中最重要的一个环节,研究主要集中在划分的自动化和划分的高效性两个方面。在信息生命周期管理中,数据划分和价值的评估的实现都是基于策略划分的方法,它的自动化也在基于策略的方法中得到了体现。目前绝大多数基于策略划分的依据一般都是元数据。

划分策略的类型一般有基于知识的划分策略和基于专家的策略。其中基于知识的划分策略一般是根据对数据一段时间的信息收集并根据经验来划分它们不同的价值,具体来说一般是根据数据应用的领域来划分。一个简单的例子就是医院里的X光片跟一个普通用户的.doc文档,其处理策略肯定是不同的。

另外一个是基于专家的策略,简单来说就是在数据的应用过程中管理员给出一个数据的属性集,满足这个属性集的数据被赋予一定范围内的价值,并把它们划归到一定的服务等级中。还有一种方法是,管理员提供一些文件集以及与这些文件相对应的商务价值,然后系统挖掘这些事例数据集的属性,并据此生成一个新的策略,以把数据的属性集和它的商务价值相联系。

另外,在以往的文献中对于数据的价值的确定还有一种方法,它根据数据的使用情况来标定数据的商业价值,例如数据被使用的频率最后访问的时间等等。但是从广义上来说数据被使用的情况也是元数据的一种,也适用于基于属性的数据划分策略。关于根据数据使用情况来标定数据商业价值的一些具体内容将在后文中提到。

数据划分的效率是信息生命周期管理中不可或缺的一部分,因为信息生命周期管理的主要目标就是通过对数据的管理获得更好的性能和可用性,但是对于管理系统来说,要处理海量数据的属性和价值并不是一件轻而易举的事情,如果数据的划分影响到了存储资源的性能,那么管理系统将变得得不偿失了。

对于上文中提到的第四个问题,由于一个存在的系统它的硬件设备和底层结构基本已经确定了存储分层,因此对于存储分层中的一些细节本文没有做更详细的说明。

策略之一:确定数据的价值

数据价值的确定大概可以分两类,一类是由事先定义好的策略根据数据的属性来确定数据的价值,同时也将数据集进行划分。这种方法依赖于具体的应用和参与策略制定的人员,缺乏自动性。这里不再详细描述。

另一类确定数据价值的方法是根据数据的使用情况(usage)。它给出了一种根据信息使用情况而把信息价值数量化的方法,它能够反映出信息在整个生命周期中其价值随着时间变化的特点。在这种划分系统中有两个最基本的假设:

第一,信息的价值可以通过它的使用来认识和反映;

第二,信息的价值随着时间的变化而变化。

下文给出了一种典型的使用此方法确定数据价值的案例:首先,为了给自动化的信息生命周期管理提供一个合适的信息估值,估值模型应该满足一下几个关键需求:

1. 不需要或者几乎不需要人为的干预也就是估值模型需要满足自动化;

2. 估值依赖于现实的、可测量的单位(metrics);

3. 估值模型应该是简单的、易于理解的,它允许用户非常容易地解释估值的输出并获取信息;

4. 估值模型要反映出信息价值随时间变化的趋势;

5. 能适应不断变化的环境。

根据使用情况进行数据价值评估,比较适合于一些静态的文件和数据。

估值模型利用信息的使用状况来评估信息的价值,这个使用状况包括很多方面,例如:使用的数量、使用的时间、使用的资源和使用的目的等。本文介绍的模型根据最近最频繁使用情况来评估信息价值。

如果一份信息,它被使用的时间距离现在越短,使用的次数越多,我们就认为这份信息越重要。同时我们也要注意到一个高效的估值模型应该综合公平的考虑这两个方面的因素,基于这个考虑模型将使用时间的距离和使用的次数加以形式化并得到一个位于0~1之间的信息价值。由于一些信息的保存时间可能非常长,达到几年甚至几十年,因此我们需要划定一个计算价值的时间段,整个估值时间段根据不同的应用而有所变化。但在通常情况下,典型的估值时间段至少也应该有几个月的长度。

接下来,为了将上面提到的两个因素合并到一个模型中,估值时间段(valuation period)被分成了固定长度的生命阶段(也就是固定长度的小时间段lifestage)。不同的生命阶段可以反映出使用时间距离当前时间点的远近,而同一个生命阶段内部则反映出不同的使用频率。距离当前时间点越近的生命阶段,它的权值就越重,而在同一个生命阶段里发生的使用都是等权重的。因此可以看出,生命阶段的长短影响了上述两个因素在信息价值中占据的地位。当生命阶段的长度等于估值时间段长度的时候,使用时间距离当前时间点的远近这个因素就没有了任何作用。当生命阶段的长度变小的时候,使用频率的重要性被降低,而使用时间的远近变得越来越重要。

策略之二:解决效率问题

面对着海量的数据存储,要按照其商业价值进行服务等级分类的划分并不是一件轻松的事。在一个海量的数据存储系统中,数据管理系统要扫描一遍整个文件系统,从而对某一类文件进行处理,这个时间往往是几十个小时甚至更长。

有资料指出,每天一个文件系统中只有少于1%的文件被修改,而且这个比率随着文件系统变大而减少。针对这种情况,如果每个文件的修改都需要信息生命周期管理系统来扫描整个系统以做调整,那么系统负担就会过重,影响整个系统的性能。另外,如果在信息生命周期管理过程中有策略需要大规模移动数据,那么这个时候就需要对类似的这种情况进行限制,否则可能造成系统吞吐量降低、网络带宽耗尽、响应时间增加等严重的问题。下文给出了一个解决这些问题的分析案例,此案例是一个IBM研究人员给出的信息生命周期解决方案。

他们为了解决上述问题,提出了策略缓存(Policy Cache)和控制数据移动的资源仲裁机制(Resource arbitration mechanism for controlling the rate of LCM initiated data movement)。

策略缓存是:在策略的初始化阶段,所有的元数据被扫描,然后建立一个缓存,其中包含将来在一定条件下可能应用到每一个文件上的策略动作。这个缓存的更新采用懒惰和批处理的方法,每隔一点的时间段就将修改了的和新创建的文件重新扫描计算。这种方法可以明显减少策略执行的代价,将扫描海量数据以获取候选文件,改变成查看策略缓存更新修改过的文件。策略缓存在一定情况下可以使得策略执行时间减少到原来的1%以下。

控制数据移动的资源仲裁机制,其主要目的是使得生命周期管理操作对正常用户操作的影响度减到最低。信息生命周期管理往往需要在不同的存储层之间进行大规模的数据移动操作。对于一个大规模文件系统来说,这种操作往往可能需要几个小时,这对于一个需要提供24×7×365的服务系统将造成非常严重的影响。

信息生命周期管理的实现问题是一个复杂而琐碎的问题,它针对需要实现的功能的不同而不同,同时也受到底层存储管理和文件系统的影响和制约。实际上,上文已经介绍了一个信息生命周期管理的具体实现。这个实现是基于SFS文件系统上的,所以也带有了它的一些特点。下文将介绍一些更通用、更抽象的信息生命周期管理实现的问题。

DMF对于ILM如何实现结合目前最好的解决方案给出了一个逻辑上的指导。这个实现的指导被分成了五个阶段:

阶段一:一个基于信息生命周期的平台需要有一个功能强大的基础构件。首先需要巩固围绕着网络存储的存储和数据服务。而且应该减少正在应用着的配置的差异性,并将之标准化。也就是说这个阶段通过准备基础的结构来为第二阶段做准备,基于这个基础结构信息生命周期管理提供的一些服务才能实现。因此这一阶段需要定义数据中心的结构、它的需求以及它能够做的事情。

阶段二:此阶段的目标是标准化数据和存储服务,将这些服务变成统一的、可重复的、高效的过程。这个工作首先要开始于数据划分。数据划分无论是为了管理某一项商务运作还是为了整个组织公司,理解对已经存在的数据和计划产生的数据的需求都是必须的。这个过程应该包括一系列相互相关的应用以及它们的数据,毕竟数据的价值和信息生命周期管理的优点最后一般通过应用才能体现出来。数据的价值指导了对服务等级目标(Service Level Objectives,SLOs)的定义,这个定义应该是针对于性能、可用性、操作恢复、灾难恢复、安全等等方面的一个可以接受的服务等级。

通过将应用和数据与标准化了的配置相结合,系统可以获得期望的SLOs。

阶段三:这一阶段介绍了“solution stacks”的概念。一个solution stack就是在一个应用和他的信息支持下,将一个同构的数据和存储服务集作为工具来一起工作,以完成一个ILM的内容。一个solution stack就是一个围绕着相应应用的完全或者接近完全的ILM环境。

阶段四:信息生命周期管理的自动化需要一系列新的管理工具,这些工具能够使得IT基层组织的实践自动化。这个阶段的实现需要数据和信息服务以及网络服务器、存储基层组织的支持,以达到资源可以集中式的操作。

阶段五:这个阶段需要实现互操作性。互操作性的意思是定义接口使得一个产品可以将服务移交给其他产品。

从总体上来说,目前真正意义上的ILM并不成熟,缺乏相关的规范协议等,也缺乏数学基础和各种清晰的算法,这些对于ILM的工业化实现造成了一定的影响。而且目前对ILM的研究大多集中在如何有效实现整体框架,而不是如何提高各种框架的性能、效率等问题上。尤其在工业界,各大厂商纷纷提出自己的构想和相应的解决方案,但是仍旧缺乏统一标准。因此,如何进一步实现自动化、统一信息生命周期管理标准是下一步工业界和学术界面临的主要问题,也是信息生命周期管理真正普及和商业化的要求之一。

【编辑推荐】

  1. ILM在企业数据管理上的重要作用
  2. 企业存储软件提供商走在ILM信息生命周期管理前列
  3. EMC助力微软实现ILM信息生命周期管理解决方案的实现
  4. ILM信息生命周期管理的重要性分析
  5. PSO主存储优化的影响力将超越ILM

相关资讯

今日微信独家

《华尔街日报》报道日前援引知情人士的消息称,由于被美国政府以国家安全问题为由进行调查,联想斥资23亿美元收购IBM低端服务器业务的交易陷入了停滞状态。
关注新浪官博 订阅微信订阅号

订阅焦点周刊

论坛与活动

2016中国数据加速峰会直播专题
2016中国数据加速峰会直播专题[详细]
点击查看

精彩视频

最新文章

1111111
1111111
asdasd
asdasd
同有科技应用型大数据存储在南京掀起智能风暴
同有科技应用型大数据存储在南京掀起智能风暴
斯蒂芬斯蒂芬
斯蒂芬斯蒂芬
京东双11技术备战 构建多中心交易系统
京东双11技术备战 构建多中心交易系统