论坛 产品库 视频 专题 CIO俱乐部 Windows8 实验室 CMO俱乐部 案例

于洪波:大容量存储技术和目前面临的问题

发布时间:2012-11-28 14:49:00 来源:比特网 作者:李群
关键字:CIO年会 cio 国家图书馆 信息化 于洪波

  比特网(ChinaByte)11月28日消息 由中国计算机用户协会、中国互联网协会指导、比特网和IT专家网主办、比特CIO俱乐部承办的第五届中国CIO年会,在国家会议中心隆重开幕。本次年会主题定位新技术浪潮下的IT变革。聚焦热点技术,关注企业应用,引领IT变革。

  在今日下午的大数据专题论坛上,国家图书馆中央控制室主任于洪波分享了题为“大容量存储技术和目前面临的问题”的演讲。于洪波以国家图书馆的存储情况作为示例,分享了大数据时代来临后,如何来更好的解决大容量的存储。

  “国家图书馆的需求是这样,都是大数据的存储,既需要考虑现实情况,也应该考虑到未来的发展趋势,抓住当前的机遇,使我们策划书的方案具有前瞻性,不至于呈现在设计时就落伍的局面,这是一种考虑。”于洪波指出。

  以下为于洪波现场发言实录:

  于洪波:大数据提出来首先有三个问题得解决,一个就是说存储,还有一个是检索,还有应用,应用就是在线,在线真实性,这里面有说法,可能有手段,但是实际上在线是重复真实在线是很主要的。首先我讲一下这几个问题,计算机技术跟存储在线有很大的关系,所以也跟数据,一开始上来就有数据,所以如果要是计算机里面没有数据,没有存储,在线这些功能,计算机就不存在,同样,你现在的信息网络支持的东西,不是要以计算机技术为中心的话,可能也存在不了,这两项内容是相辅相成的。在这块提出来低碳环保,当然数据中心目前到现在为止,必须要解决的问题,这是一个方向。另外,大数据存储、磁光电存储、光存储,这些都是给大数据准备的。

  刚才讲到计算机,计算机它的基础就是一个环境,所以现在发展最大的也是软件,计算机技术软件也有很大发展发展空间也是很大的,当然硬件上去以后更好。现在有一种存储形式叫分散内部的存储,还有一个就是说有几种存储,直接存储、存储区域、网络存储,这些存储都是应对大数据要用的,大数据如果要是没有这些存储来复制,存不住就保不住,保不住就用不了。所以现在数据中心的发展方向,一个是在保存、传输、复原。

  现在大数据面临的问题,刚才讲到存储情况,图文、视频这几项内容是现在的表现形式,但是实际上比较大的存储量就是视频这个内容,这个内容表现的大,一个是数据块大,都是连续的,中间有存储不好,恐怕马赛克显示不了了,这个一个是块大,另外,存储量也比较大,最后它在存储当中占的内容也比较大。

  2011年IDC企业外部存储市场季度跟踪报告,到2020年达到35ZB,是201年我1.2ZB的近29倍,这是增长的一个需求。这个量大到不可想象,再过几年可能数据量更大。

  我们国家图书馆中央控制室负责整个建筑群,我们是25万平米,包括周界,这个数据量也是很大,比公共网数据量大得多,这些东西作为存储、联动的核心,这种数据量的核心建设图书馆必须的基础设施,如果没有这个,你可能不能成为现在图书馆,作为智能化建筑都不行。建设图书馆首先走的就是这一步。

  国家图书馆中央控制室就视频这块存储800T到900T,数据量是很大的,存储周期可能30天左右,第31天把第一天内容抵掉,离线就是磁带,现在可能要用光盘这类东西来做,这是现在形式内容。它作为存储的介质来说,最早是磁带,它的检索和经营开销很大,可能五年有一个存储,后面会讲到,充磁还有备份,这个东西比较多。还有驱动,大家用得很多,磁盘驱动器,现在咱们所用的数据,大部分都是这种情况,图书馆来说可能500个T左右。

  大磁盘阵列,这个阵列用得也是比较多的,我们这块用得也是很多,这是咱们涉及到的问题。它的特点,受冲击以后可以保存,在高热量情况下,磁铁就会消失了或者被破坏了,这样的存储量不易保存,这是一个特点。大约一般10点左右,读取次数万次,读写速度快,体积大,但是容易受病毒的干扰,因为你是在线,在线的话,病毒就可以上。

  还有固态硬盘,这种东西存储比较好,但是有一定的局限性。光盘,现在刻录式光盘用的不是很多,只是作为电影、DVD,现在可能要用作存储,这个存储它的好处大家可以看一下,好处比较多,不易被改写,刻录后内容永久写入,不易被篡改,这是它的好的一些方面。还有一次性刻录光盘,也组成光盘组的阵列,叫自动长片点唱机,可以自己来调整,这是检索的方式,这是已经有的案例。

  现在有一个光盘是蓝光光盘,保存年限大于50年,它的方式与其他的不同是永久保存比较理想的。存储方案就是磁带加离线保护的应用,磁盘是在线,在线检索用,大部分就是这么几种形式。

  在资料上我也看到了统计内容上,谷歌有一个大数据应用表格,6块硬盘存过两年的概率4%,这12块硬盘同时工作五年只有1%,这硬盘情况是这样一个情况。如果我们按照理想的情况考虑,我可以举一个例证,我们有一个系统40台普通的硬盘录像机,一块硬盘2个G,这样一块硬盘运行无故障,时间70万小时计算,160块硬盘的平均无故障运行时间就是4375小时,一年8760小时。如果考虑要增加摄象头,备份、容错等系统硬盘还要增加,这样其实理想状态很难实现的,所以硬盘利用要有一些节制,硬盘用多了以后,故障率也是比较高,因此大数据的安全有效的存储,这个是系统运行的必要条件,如果你的硬盘老坏,数据提不出来了,都丢了,所以咱们在大数据中必须要考虑,你牵扯到大数据必须考虑到存储。

  在实际运行当中,每两年硬盘洗一次,每五年重新充磁,因为在大数据存储情况下80%的数据存储之后没有被读取,这个IBM数据研究室指出了,在使用企业级的硬盘和存储100TB数据情况下,前五年的数据丢失24%。

  磁带和磁盘,他们存储也是不一样的,磁带是顺向逆向的,磁盘是正向反向,它的缺点就是容易被损坏,容易被丢失。另外,磁盘它还有主轴支持,这个情况间隙到纳米级了,没有磁组也是不行,这个情况已经制约了,磁盘的空间已经几乎到头了。光盘好一点,光盘只是一次刻录,存储量也少,坏了以后重新刻一张就行了,它也是单向的,不可逆的,保存量比较好,离线的保存。

  现在磁盘和磁带根本不用的数据要么删除,要么占存储空间,是两难,无法使用改变存储位置和路径实现有效的管理,磁带就是顺序检索,磁盘就是跳跃,你坏了以后也不好办。即使数据在存储当中需要24小时联网必须由磁盘解决这个问题,如果不是磁盘用光盘恐怕不行,这是无法避免。所以以磁盘存储器为主的旧数据中心,现实问题就是运营成本是初期投资成本5倍以上,也就是现在不太环保的方式。随着时间延长,成本越来越大,空调运行成本可能要达到40%以上。

  蓝光光盘存储中心,可以做到很少不用的数据,你可以完全断电情况下,没有二氧化碳排放。刻录信息无法改,不用改,特别每张光盘都是独立的,它坏了以后,不会影响到别的,所以光盘介质和硬盘之间的关系没有关联性,这是一种备份面临的存储的问题。统计劳动力和耗材成本,以数据中心为周期的时间来计算,它的蓝光光盘的写入就一次,硬盘可能要写十次,买入十次写入25次,充磁六次,不考虑费用的情况下,即使部分采用蓝光光盘存储方案耗材成本也有相当程度的改善,这是统计数字。

  国家图书馆的需求是这样,都是大数据的存储,既需要考虑现实情况,也应该考虑到未来的发展趋势,抓住当前的机遇,使我们策划书的方案具有前瞻性,不至于呈现在设计时就落伍的局面,这是一种考虑。未来和发展,一般存储的策略对长期存储数据至少三份拷贝,存储在两种不同的介质上。按照上述内容,在目前已经存储的技术中,应该选择两种介质,磁介质加光介质,电介质和光介质,电介质和磁介质。现在还有另外一种方式就是胶片,模拟性的数字,上个世纪初来做的,做得比较大,但是数字化程度几乎没有,这个传播方面有一些逊色,具体差多少,业内人需要再研究一下。

  由于电存储、磁存储的数据,受到电磁冲击时易损毁,并且介质寿命也相近大约5到10年左右。现在阳光光盘寿命在50年左右,国外正在开发寿命超过100年的光盘,这种光盘我还没有见到。

  未来大数据理论如何电存储功能基础的是短期的在线存储和近线存储的应用问题。这两块解决未来大数据保存和存储的方式。

  解决大数据问题一个是全球性的问题,另外,世界发达国家都在积极策划和运筹,如果没有认识到这种问题,那么我们将再次在这方面落后,这样的落后必将在信息产业方面造成致命的缺陷。

  邵海宏:谢谢于主任。关于存储方面有没有人有一些问题,可以进行提问。

  提问:刚才我看前面说国家图书馆存储量一个月800到900T。

  于洪波:我说800T到900T,一个小城市的存储量,800到900T讲的是视频,是对内的数据,数据监控的,外网经常挂的数据量就是500个T。

  提问:外网的数据量基本上都是扫进去的书或者DVDVCD视频文件?

  于洪波:因为资料作为数据化的应用用扫描的方式扫进去,扫描进去是图片,扫描的图片也是非结构化数据,显示器不是特别好,或者PC机不是特别好,速度比较慢,它就比较慢。

  提问:这种存储方式不能用OCR取代了,一本书扫成数字版的图书?

  于洪波:新的书可以用那个,但是图书馆大致上都是历史文献比较多,这种书给它整个数字化,就直接扫描很简单,对书的破坏比较小,现在我们一些古籍的书,我刚才说到胶片的问题,给你的都是胶片,你要是借的话,借一盘胶片,机器一摇随便看,要想数字化,还只能通过扫描这类的东西。

  提问:我觉得现在的数字转换技术,完全可以把图片变成数字,存储量大大降低,500T 全是扫描的东西根本存不了什么东西?

  于洪波:有一些结构化的数据资料,这个比较小,人家到图书馆,你要去看书,看现代书都没有太大意思,网上也有,但他看的历史文献没有,历史文献要做,纸张老来扫描,一次就完了,好多都是胶片过来的,大致是这样的情况,把它模拟量改成数字化,基本上考虑的就是这些内容,我们那儿好多人都是来数字加工,一张张扫。

  提问:现在OCR技术也是基于扫描技术的,只是说我这个扫描的精度比较好,在扫描的都是能给它转换成数字的书,再找一些人完全可以列成电子书了。为什么说您都给弄成胶片,也不是说像国家下的红头文件,带的章,你没有电子章必须扫描下来作为证据,大家读的图书为什么不能变成数字图书呢?

  于洪波:我所说的胶片基本上就是用上面这些东西作为胶片来说,一般的图书,你比如说正经八百送一个脚本到图书馆去,出了一本新书到图书馆去,图书馆可能能查到给你存一下,但是你到外面也能买着,这种图书没有必要再数字化了,所谓数字化是有价值的,人家阅读比较多的,要查的这些东西,一般一张纸制文献保存500,一般造成胶片,是基于原来的技术,现在绝大部分都是胶片,你可能没查过历史文献,给你一个大胶片,一摇就可以看了,这种东西完全给它数字化,也可以数字化,人工量比较大。


猜你喜欢

-->
比特微信账号
比特微信账号

微信扫一扫
关注Chinabyte

返回首页 长微博 返回顶部