论坛 产品库 视频 专题 CIO俱乐部 Windows8 实验室 CMO俱乐部 案例

Informatica郑玮:数据集成为Hadoop保驾护航

发布时间:2012-11-28 16:15:00 来源:比特网 作者:李群
关键字:CIO年会 Informatica 大数据 信息化

  比特网(ChinaByte)11月28日消息 由中国计算机用户协会、中国互联网协会指导、比特网和IT专家网主办、比特CIO俱乐部承办的第五届中国CIO年会,在国家会议中心隆重开幕。本次年会主题定位新技术浪潮下的IT变革。聚焦热点技术,关注企业应用,引领IT变革。

  在今日下午的大数据专题论坛上,Informatica核心技术部资深产品管理总监郑玮进行现场发言。她通过一些在美国市场的案例来展示怎样用数据集成慢慢的让顾客从比较旧的数据仓库或者数据集成的办法搬到新的产品科技。

  以下为郑玮现场发言实录:

  郑玮:大家好!

  很高兴能够到这里来,其实我是昨天晚上从美国飞过来,我名字叫郑玮,我是Informatica,是产品总监,我先要说一句话,我的中文不是很好,所以特别是在讲技术那些话不是很好,说到一些英文单词,希望你们包含。我在Informatica六年多,我是上海出生的,但是12岁就去美国读书,在Informatica做数据管理的产品总监。今天想跟你们说我们有很多顾客,我有一点想问一下,你们这么多长辈,多少人知道Informatica这个公司或者是产品?基本上没有。所以我介绍一下公司到底是做什么的,我们是数据集成的公司,对大数据来说,我们有很多顾客都希望能够Hadoop平台做一些新的事情,但是现在的软件跟现在的平台已经花了很多的钱,在做一些投资,所以经常来问我,是不是为了Hadoop之后,以前的那些投资就不用了或者不需要了,还有怎么样可以从以前的平台换成到Hadoop,或者能够连级到Hadoop那里去,比较安全的,我们说是保驾护航,怎么样用数据集成慢慢的让顾客从比较旧的数据仓库或者数据集成的办法搬到新的产品科技。

  说到大数据,刚才说HP说到大数据的观点,大数据是两个最大的部分,第一个就是创新,数量越来越大,不是说以前的顾客没有集成那些数据,那些数据一直在有,但是没有办法,从成本上面来说,没有办法去了解那么多新的东西,因为这在创新上面来说,不可能把所有的数据都拿下来,把所有的数据都拿来做数据分析。所以在2015年来说,那些企业可以用大数据去作为一种办法,增加创新的比其他的企业会优越到20%以上,一大部分是怎么样可以用大数据让你们得到更加好,更加创新的办法?

  第二个就是成本,所以你想把创新做得更多、更好的时候,你也想把你数据仓库那些项目和管理,把成本降的越低越好,不仅是创新也是成本。现在基本上数据仓库85%,都不可能可以满足新的数据量的一些要求。Informatica怎么可以帮助你得到大数据的创新,在同样的时间把成本降的越低越好,这是很简单的,数据的回报率,可以说是大数据的回报率,是数据的价值,除了数据的成本,希望能够把数据价值变得越高越好,把数据的成本越低越好。我想跟你们说一下,怎么样把数据的价值变得越高,同时怎么样把数据成本降得越低,不可能做很大的创新,所以怎么样可以平衡你的创新跟控制你的成本。

  很多人问我,大数据到底可以做点什么事情?我这里有很多不同的例子,在不同的场合举很多例子,现在正好是11月底,从美国过来讲几个不同的例子,在生活中的例子,最近都知道美国总统竞选,奥巴马又赢了四年的总统竞选,这很有意思的是,一个晚上就有一个人叫尼斯是美国的大红人,为什么那么红呢?他其实是一个数据科学家,数据科学家是最最受欢迎的人,他本来做一件对很多人来不能想象的事情,美国有50个不同的州,猜猜看每个州里面总统竞选结果怎么样,他帮奥巴马结构了所有数据,每个州里面,我是女的,25岁到35岁我是亚洲人,我的教育是怎样的,我对哪些东西比较感兴趣,经济上的问题,不同的政治上的东西,把那些数据全都集成起来,用Hadoop作为大数据的成本去了解,去分析,在政治上,用很科学的办法推选,看哪个州给哪个总统竞选会赢。

  结果在竞选成果出来之后,第二天把所有的筛选结果公布出来,每个州100%的准确量,当天晚上变成最红的人,奥巴马第二天说他能够赢是大数据的分析帮助他竞选的成果,这是很有意思的例子。一般大家想到政治上面不会想大数据或者想到跟大数据有关的东西,但是大数据普遍到所有的事情,都可以。这是刚刚说到的创新。

  举另外一个例子,11月底,是美国的感恩节,星期四,在感恩前后一天是星期五,美国叫黑星期五,实际上中国好像也是有的,24小时所有东西都是50%的折扣,买很多不同的东西,在美国黑星期五是最高的价格的一天,买的东西价值是最高的一天,今年在黑星期五有很多商场就会用大数据分析,来针对性地给你一些东西。我家里除了爸爸妈妈,还有姐姐,我们家里没有男孩子,没有在大数据前,感恩节、圣诞节来的时候,收到一大堆的东西,电子游机或者是男孩子玩的玩具,但对我们家庭来说一点作用都没有,也没有针对性,每一个广告拿出来,都是钱给浪费掉了,用大数据分析,现在的商场可以知道你家里没有男孩子,知道你女性喜欢买化妆品,知道你的妈妈喜欢去亚洲的商场购物,他用这些不同的数据可以很针对性的给你一些东西。

  讲到企业化,美国的车子,我这次到北京来,能够体会到北京的堵车,堵得厉害的。有一个很有意思的是,现在美国有很多保险公司,车子的保险公司,当你申请保险的时候,保险公司可能给你很长的调查,你开车多久了?你以前有没有障碍?问你一大堆问题,但是实际上并不知道你是怎样驾车的一个人,现在可以把每个车子里面一个很小的电子芯片,可以知道一天开多久,开到哪里去?你的速度是多少?把数据拿起来之后拿数据分析,知道怎么样给你更加好的打折,在你买保险的时候。不知道在中国是不是有很多产品或者很多厂家,都在用大数据,像很多不同的创新,所以我说的大数据是创新很大的部分,现在有了大数据平台之后可以做这些东西。

  我下面讲一下怎么样在你的创新增加之后,可以把你的成本控制,把你的成本降低。所以大家应该知道这个,数据库和数据仓库的真是力不从心,你们都知道ETL那个窗口,早上两点种到八点钟是黄金时间,所有的数据分析在那个窗口都要做完,如果超过8点就不能营业了,怎么可能你的数据量越来越高,但是你还是希望从2点钟到8点钟所有数据分析完,这是不可能的一件事情,除了数据越来越高之后,耗费很多不同的能力,是不是所有原数据都要经过ETL之后拷贝到窗口那里去。除了成本来说,你现在ETL是不是已经在危险之中,你没有那么多时间去拷贝这些数据。

  第二个,你不一定把你所有的数据都放在你最贵的数据仓库里面做分析,其实现在有很多低成本的硬件,一般每天大家都可以用计算机,不用是16个CPU,一般两个CPU电脑都可以做数据硬件,ETL从数据库拿出来,放到像Hadoop,或者放到像网格计算里面,用一些比较便宜的,低成本的硬件做低成本的分析。

  比如说购物,美国黑星期五,你如果是一个顾客,到一个网站上买一样东西,不可能等23个小时之后,网站给你说你可以得到50%折扣,你当时想知道能否得到50%的折扣,这对大数据来说是非常大的挑战,因为没有办法很准确的知道2点到8钟,基本上拿到Hadoop上之后可以得到结果,怎么样可以得到实时,有几个不同的,一个是高速的数据复制,可以把经常用的数据,比如说去购物的时候,可以用实时的放到你的企业数据仓库里面去。第二个,你可以用实时的数据集成,你当时可以做实时的数据集成,现在在美国是很热的话题,在美国Hadoop科技会里面Inpala,就是实时的数据集成的办法,现在有很多不同的科技,在想怎么样能够解决早上2点钟到8点钟六个小时的做ETL,把速度降成一个小时可以完成,可以做TB,很大数量级的数据分析。

  作为工程师来说,你需要有很好的开发工具,我想跟大家说一下,Informatica我们公司已经在北美很久了,最有名的是图形开发工具,根本不用懂怎么样写很复杂的Java,也不知道很复杂的语言,用各种不同的语言,用Informatica不需要知道不同技术的语言,只要知道有一个图形的开发工具,可以给你们看一下图形开发工具是怎样的,从那个图形开发工具里面,你自己可以决定到底这个数据要在哪里做分析,是要在一般的比较低价的硬件上面,还是你要在Hadoop上面去做那些数据的分析,在你做IDE在做开发的时候不一定要选择,完全可以做一些设计,开发过一次之后,决定了数据量,非结构或者结构性的一些方法,可以经过那些东西之后决定你的数据在哪里做分析,你可以一开始不用决定,到最后可以用同样的图形开发工具哪里都可以做,这是很大的优点。

  数据虚拟化,我在没有开始做Hadoop之前,我有另外一个产品在Informatica做了很久,实际上就是数据虚拟的产品,这个主要的道理,希望你一定要把所有的数据都复制到数据仓库里面去,很多数据不需要复制,你用的时候可以实际上从数据库里面拿出来,虚拟化可以做一个虚拟的,用你的BI2直接取那些数据,根本不需要把数据复制到数据仓库里,这样也会降低你的数据管理成本。

  刚才HP的老师有谈到过,怎么样保护数据或者识别休眠数据?在Informatica,我们有同样的观念,很多数据是休眠的或者数据不是经常用的,这些数据一定要把它留着,因为很多道理,比如说,你的账务有障碍了或者需要做一些检查,想看去以前的数据,历史上的数据,在这种情况下,不活跃的数据既然不需要每天都去看,还需要有一个复制,在这种情况下,我们的想法是应该让这些不活跃的数据归档到更加低成本的空间里面,Hadoop是不是很好的归档的地方?把不经常用的数据归档到Hadoop上面去?当然可以这样做,但是Hadoop你要记得,把同样的数据复制三次,除了Hadoop,尽管Hadoop是很低价的硬件,但是一般来说,作为归档的话,你还是有更加便宜的选择,更加便宜的地方可以把数据全部压缩,压缩到很小的包,放到更加便宜的硬件储存上面去。

  我可以说一下,我们在Informatica平台上面,最近2011年开始,我们推荐了大数据集成,很多不同的公司都在这里,但是Informatica应该是在数据集成领域上一定是绝对的领导者,所以希望你们能够看一下Informatica的软件,了解一下我们,在大数据帮助你们得到创新,降低数据成本。

  我现在跟你们说一下11月底、12月初的时候,Informatica有一个新的产品,PowerCenter大数据本,放到Hadoop里面可以执行,可以做大数据量,但现在Hadoop可以把很低价的硬件,可以有很好的机会降低数据的成本,可以放在Hadoop上面去做分析,不仅做一般的传统的分析,也可以在Hadoop上面做。你可以处理降低成本的商用硬件,一般的硬件,不需要36CPU或者26CPU,一般的两个CPU都可以做我们的软件。客观上载新的数据类型,很多数据类型都是非结构或者无结构的,Informatica不管是OLTP,数据仓库,都可以把它吸到Hadoop里面去,跟Hadoop作为一个平台做数据分析。

  我刚才说到PowerSenter有一个图形开发平面,可以看到图形平面,实际上作为IT的工程师来说,这是一个很容易学习的平面,你不用学习Java,很难的那些技术,可以利用我们的平台做你的数据集成分析,当你生产率提高近三倍的时候,你可以从这个平面上设计一次,可以一直外同一个平面去放在Hadoop上面或者在一般的软件里面做,只要设计一次,随意都可以做数据分析。所以对开发人员来说,这个生产率可以提高近三倍,这也是你降价的一种办法,数据分析跟数据管理的一种办法,是你人才上省钱的地方,提高生产率,所以可以降价很多。

  总结一下,刚才跟你们说过,数据集成是很重要的事情,数据集成能够让你Hadoop平台得到大数据的优点,有很多创新的地方,也可以让你把数据管理的成本把它降低,刚才介绍了不少的办法,Informatica9.5就是大数据版,给你很多不同的产品上的优点,比如说大交易数据在你的LTP里面高速的存储,把刚才说到的非结构或者半结构的数据,都放在Hadoop里面或者放到一般的数据仓库里面去,我们有高速的E跟L的空间里面去。

  我们新的大数据,比如说像不同的半结构的,都可以用我们的数据访问去做一些很深层的分析,如果你是一般的工程师,不需要知道科技上面难度很大的产品或者难度很大的语言,像Java,最重要的是Hadoop是一个很好的平台,但是很多顾客就会问,怎么样开始?我是不是以前的那些做过的数据都要丢掉,为什么做Hadoop的时候还要重新写过,所以作为Informatica来说,我们觉得你不一定需要重新写过以前的数据分析,可以把数据分析挪到Hadoop上面来,可以很安全的来做Hadoop的平台。谢谢大家。


猜你喜欢

-->
比特微信账号
比特微信账号

微信扫一扫
关注Chinabyte

返回首页 长微博 返回顶部