成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼
数据大清理
数据分类工具提供了基于策略管理数据的功能,从而为主存储器腾出了空间。但这些工具大多数处理的只是非结构化数据(如电子邮件和文件服务应用创建的数据),而不是数据库记录。
美国国家核安全局的IT经理Matt Decker知道自己不能只通过添加昂贵的高端存储阵列,来跟上该局数据每年增长40%的迅猛势头。而人工删除回收箱和临时文件又无法释放足够的存储空间。他说: “当数据不断增多时,你突然成了它的奴隶。”
Decker想知道到底是哪类数据在塞满高端磁盘,那样就可以评估数据价值,决定怎样把数据转移到较便宜的存储介质上,或联机方式或离线方式。
这时,总部设在加州的Arkivio公司有了用武之地。两年前,Decker请来这家公司进行数据审查。Arkivio的发现结果让他大为震惊: 存放的数据大部分是重复文件、临时文件和电子邮件的附件,多达3.5TB。Decker说: “要是有人发给我一封邮件,我认为其中的附件没有问题,就会保存下来,而别人收到附件后也会这么做。”
如今,Decker使用Arkivio公司的Auto-xplor工具,就可以自动标记这些数据,然后备份起来,并设置策略引擎,根据数据重要性决定如何存储。
这种数据分类或者标记工作过去要靠人工完成。而如今许多新兴供应商出售的工具则把代理放在应用服务器上,由它们来搜寻磁盘卷。然后,分类软件会生成有关这些卷的报告,并把该信息放入可以搜索的数据库当中。
譬如,数据分类软件有“创建日期”和“上一次访问日期”这样的字段,就可以根据关键字进行搜索。随后,管理员就可以制订策略,确定数据一旦分类完毕,应存放在何处。
许多公司很早就向市场推出了能够跨多种应用(如电子邮件和文件服务器)对数据进行分类及存储的软件,譬如Arkivio、伦敦的Njini公司、加州的Kazeon系统公司以及StoredIQ公司。
Gartner公司的分析师Carolyn Dicenzo说,电子邮件最占用主存储阵列上的空间。其次是文本文件。而保存这些数据风险很高: 如果保存时间超过必要期限,就很难理清大量电子邮件的头绪,以便合法取证,还会让公司面临诉讼。
迄今为止,数据分类技术厂商几乎全都提供用于处理非结构化数据(如电子邮件和文本文件)的产品。数据库里面的结构化数据用不着加以分类,不过越来越需要为这部分数据编制索引,以便它们也能够加以搜索。企业战略集团公司的分析师Steve Duplessie说,目前惟一在处理结构化数据索引编制的一家公司是开发Greenwich软件的英格兰公司: CopperEye。
一切为了遵从法规
美国伊利诺斯州年产值57亿美元的技术分销商CDW公司预计,自己用于实施数据分类及分层存储架构所需的软硬件上的开支将超过100万美元。目的是为了更好地管理多达250TB的数据,而大部分放在主存储器上。
CDW的IT业务部门高级主管K.C. Tomsheck说: “对《财富》500强公司而言,法规遵从问题在过去一年事关重大。这让我们把注意力转向了记录管理和信息生命周期管理。”
于是Tomsheck在6月份开始实施数据分类项目。在第一个阶段,他的法律事务部门对于如何对待不同类型的数据制订了相应策略。在第二个阶段,项目管理办公室对数据进行了分类。而在最后一个阶段,网络技术小组将确认由哪项技术来支持分层存储架构。
Tomsheck说,公司的主数据中心和备用数据中心都集中放在芝加哥,这为他的数据分类工作提供了极大帮助。他说: “数据库、电子邮件、文件共享文档,包括非结构化数据,它们都放在两个地方的存储设备上。我们的数据放在一个主存储站点,然后可从该站点评估数据,这很有帮助。”
该公司购买了EMC公司的12个网络附加存储(NAS)阵列,包括Centera内容寻址存储阵列。如果一切按计划发展,大约150TB的数据将从主存储阵列迁移到辅助的NAS阵列上。Tomsheck说: “我们把这看成是‘现在获得回报还是以后获得回报’的问题。”他希望能在三四年内获得投资回报。
Duplessie强调,数据分类的成本通常不是来自技术本身,而是来自确定如何对数据进行分类所用的时间。
作为其战略的一部分,Decker购买了EMC公司的Centera内容寻址存储器阵列,以便对电子邮件和文件进行联机归档,那样最终用户仍能够访问数据。 (CCW)

