WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

评测导购 > 数据保护 > 正文

重复数据删除技术在实施过程中所遇到的问题解答

Watchstor.com  佚名丨2009-11-10 17:23 标签:数据保护 存储资源管理 重复数据删除 

重复数据删除技术给我们带来了很多的帮助,它在存储市场中的地位是不容小视的。今天我们主要介绍的是有关重复数据删除技术在实际应用当中的一些认识,巩固大家对这个技术的理解。

“在经济环境如此不好的条件下,EMC用天价买下了Data Domain,足以说明重复数据删除技术在整个存储业界的重要地位。”这是ESG中国区总经理王丛女士在回答笔者有关EMC和NetApp竞购Data Domain时说出的第一句话。我想,作为一个长期关注存储业界技术和市场变化趋势的咨询机构,ESG给出这样的评价一定有他的道理,起码,他们是专业的,他们的专业研究报告可以给出我们想要的所有数据,当然,无疑都是在说这项技术是时下乃至未来的宠儿。

可重复数据删除这项技术到底在国内能有怎样的前景,这项技术是否真的得到了用户的认可?它的重要程度真的有厂商宣传的那么重要吗?

笔者还曾听到过业界一家著名的厂商说过:拥有了我们的重复数据删除技术,可能你以后就不需要再添置存储设备了,因为它可以为你省出很多磁盘空间,备份端也变得不再那么捉襟见肘了。

重复数据删除技术原理

重复数据删除不是解决方案

可能很多人将厂商热炒的这一新技术判断为一种为数据保护提供的解决方案,如果你真是这样想的,可能就大大高估了这一技术的级别。它只是作为数据在生产、传输或备份过程中的一种删除工具,按照目前厂商比较认同的做法,是将这项技术打包在数据管理或备份软件中,只是作为存储管理软件的一个模块或一个选件,而不是已经上升到了解决方案的高度,至于解决方案,那也要从存储硬件、软件平台的整合上说。

事实上,这种只保存数据单一实例的技术早已存在,只是在备份领域中才被突显出来,并定名为重复数据删除。正是由于企业在备份过程中存储了大量的重复数据、浪费了大量存储空间,最终才催化出重复数据删除技术。重复数据删除的宗旨就是为企业用户的备份解决方案服务,使得企业备份解决方案更加完善、高效。如果脱离这个宗旨,厂商一味强调重复数据删除的一些优点,却忽视企业在数据安全性和备份等方面可能做出的巨大牺牲,那么毫无疑问,这种本末倒置的作法最终受害的将是用户。

不要掉入重复删除比率的迷局

几乎所有重复数据删除产品厂商都会强调自己可以达到多高的重复数据删除比率,有些甚至宣称可以达到500:1这样不可思议的数据。事实上,重复数据删除比率完全取决于数据的类型和备份策略,跟技术本身的关联并不大。

举例来说,如果数据的类型为Office文件、电子邮件,由于数据结构本身的重复性高,能被删除的部分自然就比较多,如果是已经压缩过的影音、图片等文件,重复数据删除的效果就相当有限;采用全备份的重复数据删除比率,也远大于增量或差量备份,因此,比较不同产品之间的重复数据删除比率其实是没有意义的,更不能借些来判别产品的优劣。

厂商所提出的重复数据删除比率往往是在最佳的备份环境下、针对最适合删除的备份数据类型,加之最合适的备份次数后得出的理想值,而用户在实际应用中恐怕很难遇到这么多种的“最佳”条件。就好像汽车厂商书面标称的油耗一样,试问又有几个车主能在驾驶过程中真正实现呢?

重复数据删除不能影响服务器性能

某些采用资源端重复数据删除技术的解决方案,必须在生产服务器上安装代理程序来执行重复数据删除,无可避免的给生产服务器造成了相当大的性能负担。任何改变传统的数据保护方式,都必须建立在不影响系统运行的前提下才能被接受,换句话说,服务器的性能绝不能受到数据保护方案的牵制。

部署重复数据删除技术的挑战

如同磁盘到磁盘备份或服务器虚拟化,不应该把重复数据删除技术看成是孤立的产品和性能。客户必须在他们整体的数据管理和存储战略中考虑重复数据删除更广泛的影响。部署重复数据删除解决方案的共同挑战是其性能如何,增加管理的复杂性以及重复数据删除群的增长。

1. 性能

发现并消除冗余的数据对基于设备的重复数据删除解决方案来说是非常昂贵的。如果没有重复数据环境背景信息,那么包括较大企业在内的企业都面临很大的挑战。

如果数据按顺序书写,那么存储系统会运行得很好。然而,那些较小的数据集会损坏大多数重复数据删除解决方案的磁盘性能。在多个对象间共享数据,基于设备的重复数据删除会导致大量的数据碎片工具分布在系统中。随着时间推移,在基于设备的重复数据删除上的读、写、备份以及复制性能将会变得极度缓慢。

2.增加管理的复杂性

如今的许多重复数据删除解决方案的运行看起来需要整个系统都为其服务,想要将数据从重复数据删除设备移到D2D2T工作流程的磁带上几乎是不可能的。要想受益于网络优化,企业就必须在其远程办公场所安装新的硬件或软件。

许多重复数据删除解决方案需要一个独特的硬件和软件的组合,或需要企业购买手工操作或个人操作的新的独立设备。增加的管理复杂性降低了您的存储和网络储蓄,尤其是您有大量的重复数据要删除。

3.群重复数据删除

独有的解决方案锁定了厂商,并将较差的性能添加到了他们专有的存储布局中。想将数据从一个重复数据删除设备移到其它存储系统的可能性很小。

重复数据延伸至多个存储层,包括数据复制、归档以及测试和开发副本。通常,重复数据删除解决方案只能涉及其中的一个领域。因此,您减少了进一步降低存储消耗的机会。

从根本上来说,重复数据删除起源于备份,重复数据删除技术的最终目的就是最大限度地提升备份设备的利用率。重复数据删除这项技术并不是一把万能钥匙,它并不能解决企业备份的诸多问题:缩小甚至消除备份窗口、消除备份对生产主机的影响、复杂的磁带管理、异地灾备等……而且对于很多偏向数据库应用的存储设备来说,其数据增长量并不是很大,目前作为备份数据的主力存储——磁带的价格也不是很高,所以对重复数据删除这样一个锦上添花的技术来说,其要走的路还很长,不过现在场上已经认识到了,只讲这个技术单独拿给用户来说可能不太能打动对方,整合到存储管理软件中并配合硬件平台使用,才是这一技术未来的较好归宿。

【编辑推荐】

  1. 安全存储误区的防范措施
  2. 企业信息泄露防范的具体技巧讲解
  3. 探讨重复数据删除的有效利用
  4. 分析磁带存储技术在数据保护中的重要作用
  5. 绿色数据中心的建立指导

相关资讯

今日微信独家

《华尔街日报》报道日前援引知情人士的消息称,由于被美国政府以国家安全问题为由进行调查,联想斥资23亿美元收购IBM低端服务器业务的交易陷入了停滞状态。
关注新浪官博 订阅微信订阅号

订阅焦点周刊

论坛与活动

2016中国数据加速峰会直播专题
2016中国数据加速峰会直播专题[详细]
点击查看

精彩视频

最新文章

1111111
1111111
asdasd
asdasd
同有科技应用型大数据存储在南京掀起智能风暴
同有科技应用型大数据存储在南京掀起智能风暴
斯蒂芬斯蒂芬
斯蒂芬斯蒂芬
京东双11技术备战 构建多中心交易系统
京东双11技术备战 构建多中心交易系统