WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

评测导购 > 数据保护 > 正文

NetApp重复数据删除非结构化数据 节省高达70%的空间

Watchstor.com  佚名丨2009-09-22 16:46 标签:数据保护 存储资源管理 非结构化数据 重复数据删除 

大多数公司存储的数据中 50% 以上都是非结构化的,这其中包括各种文件类型,分别存储在主目录、共享目录、文件管理系统及其它地方。如果你的公司有脑力劳动者,不管他们是做财务、会计和营销等业务工作还是做软件开发、电子设计等工程应用工作,你的非结构化数据都会包括 Microsoft Office、软件配置管理(SCM)、产品生命周期管理(PLM)或电子设计自动化(EDA)等大量文件。许多业务和工程应用会产生大量的非结构化数据。

你的公司可能已经开发出了很好的流程,用于管理和计划存储在数据库中的非结构化数据。然而,为非结构化数据的爆炸式增长配置存储可能会面临另外一个关于 IT 预算紧缩的问题。考虑到自从 2008 年以来全球经济环境的变化,你的 IT 组织希望能寻求降低与这些存储有关的费用或者更多其它费用。

这正是NetApp Data ONTAP 重复数据删除技术发挥作用的地方。通过整合你的存储、使用NetApp重复数据删除从你的主存储池确认和清除重复数据块,你能够恢复 30% 到 50%、甚至更多的存储空间。这带来的直接影响是延缓了购买额外存储的支出,同时将来购买存储的费用也随之减少。

本文描述了与非结构化数据相关的诸多挑战,讲述了你能通过哪些方法战胜这些困难,并强调了当将NetApp重复数据删除应用到许多的业务和工程应用时你能期望获得多大的空间节省。

非结构化数据的挑战

非结构化数据的增长带来的最大挑战在于:这些数据增长的速度超出了许多 IT 组织能够应付的程度。因为以下多方面的因素,这一挑战正在变得更加复杂:
• 非结构化数据可能在广泛扩散。一些数据存在服务器的直连存储(DAS)上,另外一些数据存在存储区域网络(SAN)上,还有一些存储存在 NFS 和 Windows 文件服务器上。也可能还有一些对你的组织有用的非结构化数据被存储在工作组、桌面或者笔记本电脑里。
• 相当多的存储尚未被充分利用。尽管有不同类型的存储和多个存储系统,但是这些系统必然无法被充分利用:例如容量和/或性能。同时,还有一些存储系统可能在容量和/或性能方面被过度使用,因为很难去平衡这些存储系统之间的需求。
• 数据保护和安全变成难题。在这些环境中,有时很难去确认数据到底存在哪里,更不用提为数据提供足够的安全和备份。尽管确认非结构化数据类型不是本文的重点,但是使用《整合你的非结构化数据存储系统》指南是一个良好的开始。
• 大量的数据是冗余的。你可能将大量珍贵的存储空间用于存储那些同样或类似的文件备份了。然而,如果你能有办法找到它,它也代表着一个重大的机遇。
针对这些非结构化数据难题,相应的解决方案需要注意:(1)尽可能多地整合你的非结构化数据;(2)消除冗余。你应该回答的问题是“你如何才能最好地实现这些目标?”。

整合你的非结构化数据存储系统

为了改善你的非结构化数据管理,你必须首先将现有的存储系统整合至一个或多个存储系统。你可以从分析现有环境里的每个存储系统开始,以确认你在每个存储系统上的数据,包括使用何种平台、数据类型、数据如何被访问(存储协议或协议)、谁在使用(应用和终端用户)以及要求什么级别的性能。

你正在创建一个非结构化数据地图,能够被用于提高存储容量利用率。你将使用该数据地图尽可能地将你的非结构化数据整合至多个存储系统。NetApp 统一存储架构支持所有通用的 NAS 和 SAN 存储协议(比如 NFSv4 和 FCoE),因此,当你选择NetApp 帮助你管理非结构化数据的时候,你能够将非结构化数据整合至一个单一存储系统。现在,你能够支持通过 Windows、 Linux、UNIX  操作系统或任何其它你可能会有的平台进行访问。

以上述方式整合你的数据能带来几个重要优势:
• 提供更大的灵活性。你能够轻易分配存储到需要的地方,不会因为有单个存储 “库” 而带来麻烦。
• 改善容量规划。你只需要监测和配置一个单一存储系统,而不是一大堆 DAS、NAS 和 SAN。
• 整合最大限度地减少了冗余。为了实现最高的运行效率、通过NetApp重复数据删除恢复最多的存储空间,你所有的非结构化数据必须放在同一个地方。

NetApp重复数据删除带来显著的节省

当你将非结构化数据整合至一个单一存储系统的时候,你可能想采取办法开始消除冗余。消除冗余能够减少你一开始所需要的存储量,以建立起你的整合存储池。例如,如果你知道你的工程应用主目录上同一个文件有很多副本(工程师这么做的原因是因为他们不希望冒风险,因此一直保持着原始文件和副本),你将该数据转移到你的整合存储,并在转移下一个非结构化数据集和重复该流程之前,对它进行重复数据删除,以恢复空间。
你所取得的成果将取决于NetApp重复数据删除的方法。对于主存储上的重复数据删除,除了 NetApp 重复数据删除技术之外目前还有一些其它的产品。NetApp 的 Alex McDonald 在最近的一篇博客中对比分析了各种节省存储空间的办法。

在目前市面上能看到的所有产品中,一些产品仅仅只能消除文件的同一副本。NetApp重复数据删除以块级工作,因此,当一个文件存在多个版本的时候,它能够实现显著级别的重复数据删除。例如,可以想象一个 10MB 文件的两个副本被一个单一的块级数据区隔。文件级别的重复数据删除将无效,因为这些文件是不同的,因此你将仍然需要 20MB 的存储。块级重复数据删除将只删除被改动过的块数据,因此你能够将两个文件用 10MB 的空间外加一个块进行存储。

虚拟服务器群和网络配置 

图1)虚拟服务器群和网络配置

NetApp重复数据删除内置于 NetApp Data ONTAP 操作环境,并且完全独立于你所使用的存储协议。 重复数据删除在所有 NetApp 卷上工作,无论它们是通过 SAN 或者 NAS 协议进行访问,它都能够被应用于生产和归档数据。并且,它对于终端用户和应用来说都是完全透明的。 而且,如果 NetApp 存储系统是在线的,数据将被合成并能让系统读取。非主存储上的重复数据删除产品可能失败,让存储不可访问,直到非主存储设备被复原。关于 NetApp重复数据删除的技术细节在之前的一篇 Tech OnTap 文章中有详细描述。
通过整合和定期重复删除你的数据,你能够减少非结构化数据所需要的存储,并延缓购买额外的存储。如果你正在考虑你的非结构化数据是否能通过重复数据删除受益,NetApp 提供一个空间节省估算工具(Space Savings Estimation Tool ,简称SSET),可帮助你在 NFS 或 CIFS 卷上运行一遍,从而估算出你能节省多少空间。以下部分将讲述通过在各种环境中使用重复数据删除技术你通常能节省多少空间。

利用NetApp重复数据删除实现潜在的空间节省

自从重复数据删除问世以来,NetApp重复数据删除已经在现实世界中测算了它所能带来的诸多优势。 许多 Tech On Tap 文章已经特别阐述了 VMware 环境里重复数据删除能带来的益处。在VMware 环境里,每个虚拟机使用的几乎都是同样的操作系统环境,因此它必然有高级别的文件复制。以下表格概括了迄今为止的一些结果。

表1)重复删除各种类型的非结构化数据的典型结果。

数据类型

通常能节省的空间

范围

备份数据

90%

85–95%

VMware VM文件

70%

50–90%

数据库备份

55%

40–70%

主目录

35%

20–50%

CIFS 共享

35%

20–50%

电子邮件归档

30%

20–60%

混合企业级数据

30%

20–40%

文件归档

25%

20–30%

最近,NetApp 正在调查非结构化文件数据仓库里重复数据删除所带来的优势。这些非结构化文件数据由最流行的工程应用和科学应用程序所创建,比如西门子的 Teamcenter PLM 软件,IBM Rational ClearCase SCM 软件以及用于地震数据分析的Schlumberger Petrel 软件。 

西门子 PLM 软件的Teamcenter 是目前市场上领先的一款产品生命周期管理解决方案。Teamcenter 利用一个相对较小的元数据库,融合一个用于存放工程应用设计文件的大“数据保险库”。每当工程师在 Teamcenter 里保存一个设计的时候,该设计文件的完整副本被存在“数据保险库”里,即使对设计所作出的改动较小。因此,Teamcenter 对NetApp重复数据删除来说是一个很好的候选者。

NetApp 与西门子 PLM 紧密合作,通过使用西门子的性能和可扩展性基准工具,在 Teamcenter 环境里评估NetApp重复数据删除的价值。该工具模拟了正常使用的情况下将会发生的许多设计文件的多个改动的创建。重复删除随之而来的“数据保险库”里的数据带来了 57% 的空间节省。因为在许多情况下文件改动的数量很可能比我们模拟的更高,因此现实世界里能节省的空间可能比这还要多。你可以通过阅读近期的一篇技术报告了解更多详情。

IBM Rational ClearCase 是一款领先的软件配置管理解决方案。与 Teamcenter 类似,ClearCase 包括一个融合了用于存放文件的大型“版本目标库”或 VOB 的元数据库。除非你正使用 ClearCase 存储二进制和源文件,它通常在使用存储方面是非常高效的。当一个 VOB 副本需要生成的时候,重复数据删除可能能与 ClearCase 一起发挥作用。此外,实验环境里的初步结果表明,当整个文件被存储的时候,在ClearCase 环境里使用NetApp重复数据删除能带来40% 或者更多的存储空间节省。(你可参考右边的文章来进一步了解这种方法的潜在优势。)

Schlumberger Petrel。这一应用被用于油气开采和生产现场进行地震数据的解释、存储虚拟化和模拟工作流程。像上述提及的两个应用程序一样,它创建包含了大量文件的项目目录。当用户创建、发布和归档数据的时候,复制的数据目标被存储在多个存储设备上。通过将NetApp重复数据删除应用于这些目标目录,NetApp 发现可节省将近 48% 的存储空间。最近的一篇白皮书对此有非常详细的描述。

表 2) 几个工程应用的重复数据删除结果。

应用程序

通常能节省的空间

Siemens Teamcenter

57%+

IBM Rational ClearCase

40% (对于整个文件存储)

Schlumberger Petrel

48%

其它应用。许多科学和工程应用都会产生大量的非结构化数据,与上述提及的3个例子类似。例如,电子设计自动化(EDA)就是这样一种应用。将重复数据删除应用到任何类似应用程序上都会产生类似的结果。

一个真实实例

NetApp重复数据删除在业务数据和工程数据混合的环境里的价值最近被位于美国亚特兰大的Polysius 公司证实。该公司设计和增强新的和现有的水泥厂。它正经历着每年高达 30% 的对存储需求的增长。通过将重复数据删除应用到它的 AutoCAD 文件、Microsoft Office 文件以及其它非结构化数据,Polysius 能够回收 47% 的存储空间。一些卷甚至显示出高达 70% 的空间节省。因此,Polysius 预计至少未来 6 至 8 个月内将暂缓购买新的存储,而且它已经能够将备份数据保留在磁盘上的时间期限翻番。如需获得更多详情,请阅读 Polysius 成功案例。 

总结

如果你正被大量非结构化数据弄得焦头烂额,这种整合的NetApp重复数据删除的方法可能管用。首先,尽可能多地整合你的非结构数据——理想地讲,整合到一个或很少的存储系统上——然后用某种重复数据删除的形式去除冗余。一步一步去完成,以提高 NetApp Data ONTAP 网络化存储(fabric-attached storage)的数据效率。

使用主存储系统重复数据删除技术降低总存储需求可以使你降低存储相关的成本。此外,你可以通过管理更少的存储系统来改善数据管理,降低运营成本。例如,如果你可以将每卷的平均存储容量降低三分之一,你将显著降低备份和恢复所需的时间和存储介质。

NetApp 统一存储架构能够在单独的存储系统上存储所有非结构化数据(iSCSI 或 FC SAN,CIFS 或 NFS),并重复删除块级数据以最大程度节省空间。将NetApp重复数据删除应用于典型的主目录共享和卷可能帮你节省 50% 的成本。在 Siemens Teamcenter 和 IBM Rational ClearCase 等常见的工程应用中,NetApp 重复数据删除技术可以节省 40% 到 60%,甚至更高存储空间。

【编辑推荐】

  1. Windows磁盘设置保护你的数据并不难
  2. 九款超级数据恢复软件推荐
  3. 服务器硬盘维护的应用技巧
  4. 超级秘密磁盘软件功能详解
  5. 安全使用硬盘的技巧分析

相关资讯

今日微信独家

《华尔街日报》报道日前援引知情人士的消息称,由于被美国政府以国家安全问题为由进行调查,联想斥资23亿美元收购IBM低端服务器业务的交易陷入了停滞状态。
关注新浪官博 订阅微信订阅号

订阅焦点周刊

论坛与活动

2016中国数据加速峰会直播专题
2016中国数据加速峰会直播专题[详细]
点击查看

精彩视频

最新文章

1111111
1111111
asdasd
asdasd
同有科技应用型大数据存储在南京掀起智能风暴
同有科技应用型大数据存储在南京掀起智能风暴
斯蒂芬斯蒂芬
斯蒂芬斯蒂芬
京东双11技术备战 构建多中心交易系统
京东双11技术备战 构建多中心交易系统