论坛 产品库 视频 专题 CIO俱乐部 Windows8 实验室 CMO俱乐部 案例

乐蜂网潘高峰:电商企业的大数据价值及应用挑战

发布时间:2012-11-28 16:35:00 来源:比特网 作者:李群
关键字:CIO年会 大数据 电子商务 乐蜂网 潘高峰

  比特网(ChinaByte)11月28日消息 由中国计算机用户协会、中国互联网协会指导、比特网和IT专家网主办、比特CIO俱乐部承办的第五届中国CIO年会,在国家会议中心隆重开幕。本次年会主题定位新技术浪潮下的IT变革。聚焦热点技术,关注企业应用,引领IT变革。

  在今日下午的大数据专题论坛上,乐蜂网技术副总裁潘高峰在现场发言中称,大数据给企业带来的除了挑战,当然也有机会,尤其对于电子商务而言,大数据有很大的利用空间。他表示,电商可以利用大数据推广进行个性化广告、个性化推荐等。

  以下为潘高峰现场发言实录:

  潘高峰:刚才看了Informatica的介绍,我发现和我做的PPT有点重复,但是维度不一样,相对来说是一个美国式的解决方案,我们是国内式的解决方案。我主要给大家讲我们的应用,乐蜂网是电商企业,更多的是价格是什么?怎么应用?应用过程中有什么问题?介绍之前,首先看一下目前,电商企业目前面临的状况,不是大数据的状况,成本的上升,成本主要是获取新用户,以前每个用户成本相对来说比较低廉,但是现在为什么会上升,因为目前所有电商企业,互联网也是一样,我们说叫空前产业,基本上很难想象竞争这么激烈的行业。所以新用户成本,大家都在抢用户,中国人口计划生育在控制,但是实际上用户就这么多,不在你这里,就在别人那里,新用户成本是增加得非常快,获取也比较困难。

  第二,我给大家讲一下,去年大家都在团购,电子商务比较火,铺天盖地,电视上都是电子商务的广告,今年很多已经倒掉了很多公司,整个行业来说人力成本往上涨了,以前工资相对还是比较低,现在已经非常高了。物流仓储成本,现在咱们北京四环、五环那边,一个仓库成本非常低,但现在基本上那一块所有仓库被电商企业抢占了,那一块成为整个电商行业都在抢,位置很有限,像其他地方就这一些,所以成本也会上升。快递月薪都八千上万,都是所有人力成本的上升。

  第三,是行业规范,很多网购也好,出现很多退换货的问题,假货充斥,非常多的问题,也有一些传销钻法律空子,很多电子商务发展太快了,立法还没有跟得上,这个行业特别不规范,导致成本也会上升。目前安全这块也是存在很多的问题,我说的数据安全是一方面,去年CSDN几百万的客户密码泄漏,不知道大家有没有中招?去年当当网和我们网站,突然发现网络特别慢,结果打电话发现,当当网被攻击了,整个流量堵了,顾客访问我们网站也会慢,竞争特别激烈,无所不用其极,这是目前电商比较大的状况。

  所有的这些激烈带来成本的上升,我们怎么应对攻击,这个怎么办?现在所有的电子商务基本都是在广积粮,深挖墙,还有的就是降低成本,刚才咱们这位女士也讲了,Informatica,我们讲的是应用,降低成本,这就是大数据如何应用在电商,我们传统企业也一样,怎么用这些数据降低我们的成本,带来我们的销售。在这里做一个调查,大数据,不知道大家有没有认识?双十一,上过淘宝和天猫的有多少?看来不是很多,看来跟我们数据调查有些出入,大家看一下,不要以为大数据和我们没有关系,其实有很大的关系。首先我们只要上了网站,不好意思,你已经成为大数据的一部分了,怎么用,那是另外一回事,浏览记录肯定是有的。第二,如果你买东西了,不管你买什么,你的交易记录肯定也是成为大数据的一部分,这个隐私大家放心,每个公司做得比较完善。还有图片,电商也是非常多的,如果纯粹的网购不会吸引大家的,图片也是海量的存储。LATP也有,我们数据处理一定是实时的,还有实时的数据分析,这也是产生大数据的一个途径。

  这是淘宝双十一整个电商图的变化,那一天流量翻了七八倍,整个天猫加淘宝,用户数将近1.5个亿左右,40%也差不多了,所有的这些流量,最后都会成为我们这块的大数据,它的存储,刚才惠普也讲了,于老师也讲了,很多存储就不多说了。这个数据之后放在我们数据库里面,我们大数据目前面临它的特点,首先存储量非常大,国家图书馆的于老师量很大,我们量也是非常大的,不是结构化的,不是特别规范的。

  来源比较复杂,有结构化还有非结构化,实时性有一定的要求,这个实时性,我相信大家都上过12306,买过火车票深有体会,2306的技术没有我们想象的那么烂,技术相对来说需要一定的积累,但是实际上为什么会谈到状况,实质性要求特别高,我买火车票,不能给我同样买了,面临大的问题,大数据量和你的库存之间的冲突,实时性要求非常高,并不是那么简单的,其实我们天猫、淘宝前段时间发生一些情况,这个实时性是很大的挑战,如何在实时的情况下保证数据的安全,数据的完整性,这是非常大的课题。

  第一个,来源数据一致性和12306一样,必须让它的整个交易是完整的,有最终一致性,整个一致性中间不能有数据丢失或者只做了一半,下面就不管了,一致性的要求其实也是非常高的。目前大数据,主要目前在电商行业用的不是特别多,也是比较土的方法,刚才说的流量分析,包括原来自己也是,为了偷懒就不做了,直接用谷歌或者百度分析做,因为他们已经提供这样一个功能,数据存在他那儿,我们成本也降低了,这是目前的状况。从长远的角度上,这不是特别好的方式。

  第二个,刚才几位老师讲了存储,我不再讲了,惠普都有解决方案。

  第三个,基于增强硬件设备增强事务处理能力。

  第四个,基于交易记录进行分析和应用。基本上通过这种方式来做我们数据分析和应用如果业务部门需要数据,基本上通过搜狗,目前大数据状况是这种情况。

  大数据目前我们面临很多挑战,但是我们也有机遇,挑战就是刚才讲的海量存储,这个存储是非常非常大的,各位老师也有解决方案,通用的方案都是用廉价的机器里堆积。第二就是海量分析,怎么做海量分析,这么多数据分布到不同的服务器上面怎么做分析?还有计算,计算和分析是一样的,还有自动化,所有的数据怎么能自动化管理,这也是很大的课题,不属于存储搜索,这是非常麻烦的。它的监控,它的数据完整性,这是非常麻烦的一件事情,还有实时计算,实时计算刚才也讲了,这个实时计算对我们整个系统要求非常高,怎么做实时计算还有事务处理保证它的一致性。

  如果解决这些东西,有什么好处?第一个降低成本,怎么从数据的角度上让成本降低。第二个就自动化,自动化也是降低成本,用机器做,不用人做,人做容易出错,误删除,很多,几百台机器怎么来管理,不可能人工去处理,手块的估计几分钟搞定,自动化是大数据必须要考虑的,但是带来的结果就是可以降低我的成本,原来十个人做的事,我一个人就可以做了。

  带来销售,我的大数据怎么可能带来销售?举几个例子,大数据的推广,第一,个性化的广告,不知道大家在浏览网页的过程中有没有发现,经常看到电子商务或者一个公司的广告,很多人说这公司做广告怎么做得这么多,现在所有的广告除了原始的图片,呈静态的广告之外,很多动态是在后台的,浏览旅游网站的时候,到下一个网站可能会推荐跟旅游有关的广告,不是纯粹的完全是图片,就是静态的,到一个网站发现,到另外一个网站还在这里,其原因就是大数据应用在后面,会分析网页浏览行为,给你推荐适合你的广告,有的网站稍微注意一点,经常去可能会有些后果。

  第二,个性化推荐,这个数据不能百分之百确定,亚马逊占所有销售的35%,凡客20%,这些数据真正能不能带来销售,我们也在考证,什么叫推荐销售?看一下京东也好,去别的网站,看你的喜欢,会分析你在整个网站的行为,你到底喜欢浏览电脑这一块,经常看手机还是说喜欢看衣服,会分析你的行为,根据你的行为来猜测。如果感兴趣就可以点击了,带来的销售就叫推荐销售。这是基于用户跟用户之间的关联,手机的详细页面会发现,买了是商品的顾客,还买了什么东西?用户跟外乎之间的关联,这个东西有一定的科学依据,觉得你还会买这个东西,很多人购买是无序的,目的性不是很强,会看你的行为发现可能推荐这个更合适,有一个列表,多少人买了这个东西。 直接会带来很大的销售,对整个销售有很大的帮助。

  CRM主动营销,这里面有一个基础,大数据把所有的用户按照一定的规则分类,男性经常浏览手机,经常浏览电脑,我可能是IT人士,根据这个来给你推荐,有很多的因素,会推荐你所喜欢的东西,第一个假如说你来了,给你打个招呼,我现在有手机活动推给你,第二个,假设有手机的活动,但是我怎么告诉你,我就是会通过我的短信,发现这一部分用户喜欢手机,把短信发给你,这是已经购买的。假设你没来,短信成本高一点,会发邮件。主动营销的短信也好,E-mail也好,转化成本非常高,我知道你喜欢什么东西,你来的话,成功率还是非常高的,这是老顾客营销。

  大数据可以做非常多的事情,我列了很多,举个例子,对企业做什么?不管大数据、小数据都可以做,我的成本,假如说库存配送,你过来之后,我的成本,我预测大概下一季度哪些销售会比较好,我会做一个销售预测,这些东西都是基于历史的浏览分析。

  分析型,这个架构其实和刚才Informatica讲的差不多,这个更多的是基于我们自己解决方案。我们会从各个业务系统,通过数据采集的方式,传输方式有很多种,会放到Hadoop上面来,Hadoop会有一个Hive,分布式数据仓库,HQL,所有数据最后反馈到数据库里面,也可以存到文件里面,都可以。

  事务型更简单,实现方式不一样,这是对事务型,很多情况通过消息记录,会把所有的数据发送到路由层,实时数据很多情况不是分析的,我们会有很多数据库,我们技术上会分散到五六十个数据库,每个数据库几十个表,把所有数据分散,都能处理,这是事务型的架构,大家可以参观一下淘宝,目前也是这样做的。

  实施步骤,大部分情况还是基于数据仓库,我们可以做一些积累,不要马上放到Hadoop上,大家可以先做一些研发,慢慢过渡到Hadoop,当然有些其他的东西会更好,不建议说一点点不清楚的时候做这个事情。

  最后看一下大数据应用体系,这个体系首先是收集数据,最后是分析,尾后是应用,监控结果,再就是重新改进,很多应用并不是说这个算法,这个存储是最好的,一定要通过这个体系,发现不行,我们再重新改进,这是一个闭环如果孤立的作为一点其实是没有效果的,把分析结果给人家就完事,一定要反馈结果,一定要重新改进。


猜你喜欢

-->
比特微信账号
比特微信账号

微信扫一扫
关注Chinabyte

返回首页 长微博 返回顶部