论坛 产品库 视频 专题 CIO俱乐部 Windows8 实验室 CMO俱乐部 案例

童小军:开源技术推动大数据落地之美

发布时间:2012-11-28 17:09:00 来源:比特网 作者:李群
关键字:CIO年会 EasyHadoop cio 信息化

  比特网(ChinaByte)11月28日消息 由中国计算机用户协会、中国互联网协会指导、比特网和IT专家网主办、比特CIO俱乐部承办的第五届中国CIO年会,在国家会议中心隆重开幕。本次年会主题定位新技术浪潮下的IT变革。聚焦热点技术,关注企业应用,引领IT变革。

  在今日下午的大数据专题论坛上,EasyHadoop开源社区创始人童小军在现场进行了题为“开源技术推动大数据落地之美”的演讲。

  以下为童小军现场发言实录:

  童小军:我们给大家带来的是开源技术推动大数据落地之美。有一个采访,当年采访凡客诚品的时候,凡客短版在哪里?在于数据的分析和数据的应用的能力的短版。学习多的电商公司,越来越多变成一种越来越依靠大数据的分析能力来提供这种决策。整个电子商务领域,从最早的团购的火爆,从这种资源整合资金大量投入为核心要素,转换成了,通过大规模数据分析和挖掘提供优质的服务质量的转变,这个过程中需要大规模计算技术。

  有一个典型例子,阿里金融,通过大数据资源整合,给中小企业提供小额贷款,这个小额贷款做到极低的坏账率,通过传统银行,如果用传统的人工评估方式是无法实现的。这是阿里金融的实时金融业务墙,电商企业对业务的模式。

  天猫双十一191亿的成交,天猫双十一期间产生了15TB的日志,用什么技术来处理的呢?我们把淘宝天猫的云平台做了解构,从最底层的这块基于Liness,中间层我们看说是基于Hadoop开源的技术,上面会构建Hive,我们中间能看到,Hadoop在中间起到核心关键的支撑作用。整个Hadoop体系在云计算里面,我做了这么一个总结,有这么一个说法,整个云计算我们可以一个是合,一个是分,虚拟化技术叫做分的技术,一台大的机器切割成小的机器提高资源利用率,合是通过调用大量集群的能力,把CPU做成一个整合,大的资源池提供对外服务计算,Hadoop技术就是合的技术。

  刚才我们拥有的这些技术,背后的来源是什么?背后最早根源是什么?这一块给大家分享,整个Hadoop技术,开源技术最早的时候来源于谷歌的三篇论文,这中间有一个Doug Cuting,想构建一个开源软件,希望每个人通过这个开源软件有希望能够搭建大规模搜索,这个中间遇到了很多困难,当时看到谷歌的三篇论文,把三篇论文吸收消化进来,雅虎也在做这个事儿,关注了开源社区的发展,把它聘为主要负责搜索引擎的负责人。

  在国外有这么一个文化,中间像阿里巴巴等一系列开源软件,整个生态圈有很多成熟公司。中国在开源软件这块做了很多贡献,华为公司有大量的源代码贡献,我们为什么需要这种合的技术,我们前面几位专家都讲过,整个信息系统可以把它理解成闭环的一种结构,分为控制器、反馈器组成,这个闭环的结构可以用以下几个指标,反映的周期,它的决策力度以及对于响应的准确度,以及它的成本。

  我们看一下企业对闭环的应用,在整个企业里面,分成这几种闭环结构,一种是企业内部对于生产产品的不断持续跟完善产品的闭环,由产品部门、研发部门、测试部门形成内循环,这两个循环的速度周期决定了整个闭环的结构的智能程度。Hadoop之前数据仓库结构,我们以下来解构,原来传统的数据端通过ETL,每一层ETL中间花费大量的时间,每一层ETL中间有损失。力度不可能做到太细,到达最上层的数据仓库,每一层ETL重新搭设,中间成本也是比较高昂。

  Hadoop之后,我们可以通过前端大量数据采集,这块不变,通过技术可以实时把数据打到整个Hadoop集群里面,这层可以同样扩展,中间用户查询,通过Hive提取数据,这个反馈周期比原来快很多。决策力度,在整个Hadoop集群里面可以存储,大家可以把原始数据完整地存储在这里,它的整个角色对于数据分析的力度,也可以做得特别细,准确度,因为决策周期以及它的决策力度,准确度相对更高一点,整个成本相对廉价的,可以通过Hadoop技术横向扩展。

  这门技术,本身根本的原理以及它为什么比传统技术更优秀呢?这中间原因是把它归结成,它有一个思想是移动计算而非移动数据,在Hadoop技术里面,可以把这种计算任务分发到每一台机器上,通过并行的磁盘IO的能力,提供更快查阅速度。我们传统的一块磁盘,可能速度100兆每秒,我们联合100块硬盘就100乘100,中间大大减少中间网络流量以及使用并行计算的方式来充分的挖掘整个集群的能力。哪些用户需要Hadoop的合的技术呢?这个例子是网页游公司,有几百个游戏,有几十个TB的数据,这么大规模的数据,相当于几百个数据库,原来托管到自己的机器上,同时要往上层托管平台去汇报数据,这个中间遇到很大的瓶颈,通过Hadoop技术,可以把这些数据实时的打造基于云平台上,通过整个云平台构建Hadoop集群。

  智慧的交通例子,有这么一个诉求,有几百亿的车牌号,需要快速检索起来,从小时级别到分钟级别,乃至于秒级的优化,这个诉求怎么来的呢?在我们生活中,我们驾驶车辆,经过每个收费站都会有探头,探头会把大家汽车的车牌号定位下来,同时往中间服务器上进行存储,整个系统运转得快,可以快速识别,这辆车是不是套牌车,是不是进行年检?是不是出现违规的事情?更快的发现问题,来解决这些问题。整个Hadoop技术,从游戏、视频搜索逐渐转换成了向电信医疗、互联网领域,转化到了民生领域到革新的航空、电力、金融等等一系列领域。

  我给大家分享一下,基于云平台扩建Hadoop集群的数据,选了20台机器,每个机器四核和四GB的内存,构建起来是10个TB,这个构架图,可以通过横向扩展计算并行计算能力。我们生成了一亿数据以及一百亿数据,这个数据集是100G的数据集,整个平台当达到一亿数据的时候,每秒钟有110万次每秒的查询速度,达到100亿达到5400万每秒的查阅速度,整体查询速度性能并没有因为数据量太大,而降低它的时间,这中间Hadoop通过并行的计算能够更好的处理大规模的数据。

  我们做一个合并查询,这中间可以看到,其实通过54分钟可以很快的返回,整个平台算一下费用,整个平台费用一年只花15.9万每年,其实成本从原来的IBMEMC构建数据仓库千万级成本逐渐进入到了盛大云、阿里云公共云更低成本的平台,这个中间整个基于Hadoop大数据平台,能够被更多的公司和个人使用。

  在实施的周期上,在EMC、IBM、Oracle体系下面,专业人员帮它实施,这个中间时间上会更快,Hadoop通过自建Hadoop平台,这中间最大的问题是人员培训和培养的成本这中间大概需要做很多的工作。逐渐我们转变成更多的中小企业,个人创业者都能实施和维护,大规模数据平台都能从原来极少的政府单位和垄断企业才能拥有的这种平台转换到个人,基于个人也能维护这种平台,其实整个Hadoop云平台,有所为也有所不为,中间存在很多问题,主机的安全性,访问权限安全性,那块做得还是需要进一步加强,日志的审计各方面,还有数据安全性上面,对于数据不丢失的问题,对于整个Hadoop平台,有三份数据备份,已经做得很好了,最关键对于整个Hadoop平台的数据的安全性,本身这一块配置各方面都特别烦琐,但有一点是如果基于云平台Hadoop集群,有一个问题是,因为整个云平台原来有三个备份,整个Hadoop平台重新构建三个备份,有9个备份,中间存储成本会比原来大很多,CPU成本和内存成本小很多,整个存储成本比原来大很多。如果说大家构建更大的,100TBHadoop集群,或者更大规模,大家可以自己去通过使用实体物理机构建,小于10个TB左右可以通过云平台快速构建。

  这种技术方案基于云平台Hadoop方案有待发展,对于CPU安全隔离等等,最关键的是空间成本,价格是否能降低这是很大的问题。基于云平台的Hadoop可以作为入门,真正大家在公司里面大规模实施的时候,通过自己构建搭建整个成本更低一些,Hadoop平台里面会更完善,还有像把数据如何转化成价值有待进一步完善,还有更上层的业务系统。整个Hadoop平台,大家提到它本身的,我理解三座大山,对于整个使用和落地Hadoop来说,第一个是大的数据,这个并不是所有企业都有,大的集群,大家可以通过公有云,也可以通过自建云,当然还有应用,这三大块是大数据落地的三座大山,并不是所有企业很快速拥有三个所有的条件。

  我们最后给大家介绍一下,我们EasyHadoop社区。这个EasyHadoop社区,我们通过公开培训,组织聚会的方式来举办,举办了将近七次聚会,从第一次、第二次,最后一次在中科院软件所办的,一百多家单位,有200多号工程师和相关人士参与,整个平台我们做了在线直播,有2000人在线观看,汇集了优秀工程师,诸位CIO需要人可以到我们社区上找找。我们广州还有分支机构,这是我们的签到墙,整个Hadoop平台多么火热,还有电子书,大家可以到网络下载,我本身做了很多对外培训,上海培训以及北京做的Hadoop培训。也有对外培训的客户。

  最后做这么一个总结,整个Hadoop平台以及Hadoop平台、云平台,让大数据的处理走向了平民化时代,旧时王谢院中象,飞入寻常百姓家,希望大家进入平民化时代,谢谢大家。


猜你喜欢

-->
比特微信账号
比特微信账号

微信扫一扫
关注Chinabyte

返回首页 长微博 返回顶部