WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 存储网络 > 正文
存储基础知识:结构化数据及其存储需求
作者: Stephen Pritchard 2019-01-22 19:03 【TechTarget中国】

在企业信息中,结构化数据占比很小而且在不断减少,但对于所有企业来说,这种数据都至关重要。

结构化数据的增长速度比非结构化和半结构化数据更慢。

研究公司IDC表示,非结构化数据同比增长29.8%,而结构化数据则增长19.6%。前者的增长主要受新数据集大量增加的推动,这些数据集源自社交媒体和物联网(IoT),并且,企业想要存储非结构化数据以进行文本和其他高级分析。

但结构化数据仍然很重要,而且这种数据的持续增长也证明了这一点。实际上,正如PA咨询集团技术专家Sharad Patel所说,更成熟的公司正在将数据转换为半结构化甚至结构化格式。

结构化数据更易于管理、分析和保护,而且,很多应用程序(从专业数据挖掘工具到Salesforce.com)可帮助企业将非结构化数据转为结构化格式,或者至少将它们附加到结构化记录中。

定义结构化数据

结构化数据是指固定格式、数据模型或“模式”的数据。然后,这些元素可由应用程序(例如数据库)寻址以进行检索或报告。

结构化数据的设计使其可以传递到另一个应用程序(如商业智能包)以进一步分析。

企业资源规划(ERP)、人力资源管理和销售自动化等业务系统都是基于结构化数据,可能位于集成数据库中,或者链接到外部关系数据库应用程序,包括Oracle、IBM的DB2和各种版本的SQL。

结构化数据由字段来定义,每个字段包含记录或文件。元数据可帮助应用程序和人员检索和整理这些文件或记录中的信息。

这种元数据和元数据分析工具的增长正在使结构化和非结构化数据之间的界限变得模糊。例如,数字图像可以保存为强大的可搜索的元数据,从拍摄照片的GPS坐标到相机的技术设置等。

例如,企业可以使用这些结构化记录从监视或传送系统中提取信息,并单独对元数据进行强大的分析,而无需查看文件的实际图像数据。对象存储的增长(特别适合处理元数据)也在缩小结构化和非结构化数据之间的差距。

有些专家认为电子表格是结构化数据,尽管其他人认为,由于单元格的值没有固定的数据模式,因此更准确地说,电子表格半是结构化数据。

XML文件是结构化的,通常用于传输元数据。开发人员还可以添加结构化数据到网页,以帮助搜索引擎。谷歌提供了JSON脚本的示例,它可告知其搜索引擎网页中包含一个配方。

改变数据模型

企业信息中包含着巨大(通常尚未开发)的商业价值,这促使企业改变其存储和管理数据的方式。

其中有一种趋势是将非结构化数据转移到结构化环境,或者更好地利用元数据,还有另一个趋势是将分析工作集中在非结构化数据。这两者对IT基础架构有着不同的影响。

管理结构化数据需要一定程度的专业知识。

数据科学公司Alteryx的主管Nick Jewell说:“你对结构化数据了解的第一件事就是它通常是由专家出于某个目的建模或构建。这可能意味着数据的结构代表着特定的数据风格,例如,客户的帐户详细信息或电子银行转帐格式。”

他补充道:“结构化还可以反映数据的使用情况,例如处理客户的交易。”

数据库和结构化数据处理工具的效率,加上在其上运行的广泛应用程序,意味着企业会继续将数据转换为结构化格式。

另外,内存数据库技术(例如SAP的Hana)也依赖于结构化数据。企业正在使用内存系统进行实时或接近实时的信息处理。目前,非结构化数据系统还无法匹配内存数据库性能。

结构化数据模型的缺点是它们需要专家来设置。分析和存储专业人员想要更高的自动化来帮助他们格式化和管理数据。与努力将数据转换为结构化模式相比,更丰富的元数据和智能系统是更好替代方案,它们可挖掘非结构化数据,这里可能会使用AI。

存储需求

对于存储管理,自动化也越来越重要。

根据Gartner公司研究主管Julia Palmer的说法,企业希望简化数据管理和底层存储硬件的管理。

她表示:“与非结构化数据相比,尽管结构化数据量并不大,但他们想要更易于使用的架构并需要专家。”企业系统应该能够在存储阵列级别处理分层、压缩和重复数据删除。

另一方面,自动化的趋势又是受结构化数据转移到闪存和固态存储所驱动。从性能角度来看,没有任何其他技术可以与固态竞争,而使用结构化数据的核心企业和分析应用程序最可能帮助将这种性能转化为业务价值。

Gartner公司预计结构化数据市场将成为全闪存市场。但固态系统的高成本会迫使企业关注自动化以确保有效利用存储。而可自动将数据分层到基于磁盘的阵列、基于云的备份甚至磁带的能力预计将成为企业存储系统所必需的功能。

Gartner还指出,企业希望在不需要额外硬件或网关的情况下运行分层、归档和其他服务。这里的趋势是供应商将减少,即使IT部门正在考虑混合存储以及与整合云计算。

目前,在性能方面,云系统还无法匹配存储区域网络(SAN)或直接连接存储(DAS)系统,因此,按需将数据移入和移出低成本云存储的能力会吸引企业,前提是它们可以实现自动化。当然,另一种方法是在云中处理和存储数据。

供应商情况

在结构化数据存储领域,供应商主要包括传统供应商、直连供应商和SAN系统供应商。

戴尔EMC、惠与、Hitachi Vantara、NetApp和IBM等公司专门为高性能应用提供企业级存储系统。主流存储供应商现在都提供全闪存系统、基于磁盘的系统或两者的组合,以及云连接。

纯闪存供应商包括Pure Storage和Violin Systems,这些新的供应商已经在性能至关重要的系统中取得成功。那些寻求面向未来系统的企业存储管理员还应该关注HPE的InfoSight部门 (专为数据存储和分析而量身定制)以及Nutanix软件定义的存储方法。


标签:存储网络 

LecVideo