《首席财务官说》孙希坤:大数据量化投资之路

2017-11-10 10:01:00 作者:佚名 分类 : 新闻中心

  本文节选自孙希坤先生在《首席财务官说》的分享。如果您还没有关注钱包行,希望查看首席财务官说所有干货,进入钱包行云“首席财务官说 ”专业群交流,并查看更丰富的专业数据信息

35.jpg

  以下内容根据孙希坤在《首席财务官说》第六期线上活动微信群的分享实录部分整理:

  感谢首席财务官说这个平台,我有机会跟大家交流,这是我第一次采用这种方式跟大家交流。

blob.png

  我的团队成员基本上来自清华、北航、北邮的一些工科的硕士和博士、大部分人的工作经验原来在技术领域,因为是工科,有一些社交媒体的一些分析专家,包括做一些金融数据的一些分析专家,他们在数据领域有很深的研究,帮助我们做一些指导性的投资和建模。

blob.png

  伏流公司成立于2015年,当时也是我们几个合作伙伴一块出来成立 , 我们的目标是利用一些信息技术和大数据策略来做一些因子分析,产生一些有价值的模型,进而通过正规的方式和方法做出来很多对大家有利的或者带来收益的私募基金,这是我们的目标。

blob.png

  这份证明是我们在2016年4月份取得的中国基金业协会颁发的私募基金管理人公示的信息。

  数据的多样性:

blob.png

  今天的主题是大数据。首先我来给大家分享一下什么是数据的多样性。

  在现在这个时代数据多样性是每个行业都会遇到的问题。比如说我们经常看到的财经类的新闻、无论是通过手机看、网站看还是通过其他的渠道看,大部分都能接触到重要的新闻,这些其实也是一些数据的表现形式。

  第二个大家每天可以浏览到的行情报价信息。我们看到的任何一个品种、公司无论是中国的、美国的还是汇率的、还是国内的一些债券的、利率的很多各个地方发布的形式化好的数据,这是一部分。

  还有很多数据隐藏于社交媒体当中,也就是通过人与人的链接和人与人之间信息发布的渠道还有转发,那么这样的信息也是存在于社交网络中,这部分信息量也很大。

  还有一部分信息是上市公司类似于这样的合法的主体,他们来主动发布的一些信息,比如我们做股票的都知道上市公司会出各种的财务报表这是一类,那我们的卖方分析师呢会出很多研究报告,这是一类。这些数据是我们通过合法、合理的渠道通过一些购买的方式可以得到的数据,那么这些数据大部分是私有化的,也有可能是分布在各处,一些企业收集、整理提炼出来的。这里面有很多数据是非常重要的,我们不容易获取到的。举个例子:比如说航空公司的上座率,一般主流的数据员是拿不到这样的数据的,只有通过特定的方式和方法或者特定的API才能调取到这样的数据。

  数据有效性思考:

blob.png

  谈到大数据的有效性,这是我的一点思考。大数据为什么会有效,无论是在投资行业还是其他行业,我觉得首先是:他是一个技术性的变革,原来通过计算存储逐步扩展到分布式存储云计算、后来才有数据处理能力,才有大数据处理能力,这个是一个技术的变革,我相信在技术领域我是这么看的。

  第二个我觉得由于以上的技术处理能力、它带来了一个思考上的变化,原来大家考虑问题是考虑因果关系,经常会有一些线性思维模式,因为有因有果我们推导因和果关系,慢慢的有了数据处理能力以后,我们慢慢去找一些相关关系,进而去发现一些关系的发现,这个比相关关系更深入一些。

  第三个变化我觉得是一些企业变化。以前经济学比较注重L和K。L指的是人的价值,K指的是资本的价值,慢慢各行各业会认识到信息和数据驱动的价值,β会成为企业发展的必不可少的因子。

  基于以上几点我认为大数据技术由此和技术延伸出来的一些行业应用,可以扩展到不同行业在不同的场景发挥它的价值,这是基于大数据本身的一点思考。

blob.png

  下面我用一个例子来说明这个数据的处理能力或者这个东西的价值。首先来说新闻数据我们接触的最多在财经领域,每天早上大家看到的新闻,那是编辑们整理好的,然后把各个网站比较重要的新闻放到头条让大家看,这类新闻数据比较重要的。还有一类是:你每天可以通过比如说微信这样的方式实时接触到的一些新闻,一些热态的新闻,当然这样的新闻比较短,那么这样的新闻也构成一些重要的数据来源。当然,还有一些其他渠道,然后渗透到或者接触到你的一些信息。那么这些东西我统称为news,简单说就是纽斯,我们试图通过一个分析系统能够把不同来源的这种news,通过一个智能分析的方式能够让他转化成对我们投资直接有帮助的信息。

  比如说我们通过分析今天早上九点钟之前的新闻。我们大致可以梳理出来有哪些行业或者板块,认为是看涨哪些是看跌哪些是持平的,甚至我们可以分析出来相关的股票。然后关键的一些行业,那么这个东西呢,对我们指导投资来说就非常有帮助。

  因为大部分的重要新闻都会在八点半之前出来,也就是大家每天早上八点半都会接触到最新的新闻。那么通过这个数据分析以后还离正式的开发时间还有一些时间。那这个时间段就是有一些有价值的数据,这就是为什么很多投资公司、证券

  公司都喜欢开早会,其实就是在梳理的过程。

  开早会的时候无非就是把过去24小时发生的,重要的事件、新闻,做一个梳理,通过人的方式。总结出来哪些是看涨、看跌和持平的重要的板块和重要相关的上市公司。这个过程如果用我们智能化的方式来做,我觉得可以帮助大家梳理和过滤掉很多没用的信息,然后把重要的信息突显出来。

blob.png

  第一个要做的是对文本的分析。就是拿到一个新闻,因为是中文的都是汉字。首先要把其中的字词、句子都分清楚,而且要分清楚哪些名词,哪些是表达观点的词,表达观点的词哪些是褒义贬义。有哪些是人名地名有哪些是上市公司的名称,这些都要把它分析清楚,这就太难了。还有就是这个news本身有时效性。一般来讲我们一条重要的新闻或者是普通的新闻出现在大众的事业当中,他的热度和持续性一般是三天,第一天会比较重要,第二天第三天衰减一直到三天以后,几乎这个长尾效应就没有了,几乎已经到了零。我们还需要一些技术来监测你收到的这条新闻这条News,是不是一种新的新闻,最新的新闻是指的它没有出现过,它是一个新的世界,那这个,人是很容易去判断的,因为人一直在接触这些东西,你可能脑子里有印象,但是你让电脑来判断,这可能就是非常难的了。还要为这个未知的新闻来评估它的影响力。这里面会有几个比较重要的因素要考虑。比如说这个新闻的出处是哪里,它是来自比较重要的纸媒或者重要的网络媒体它的作者的分量是什么样子的。它发布的时效性时间性时机。这些都可以用来评估这个news,他本身的一些影响力,他陈述的内容影响力。

  另一个是新闻的频率。同样一则新闻,刚才讲过它有三天的时效性,但是同样的一个事件,它的影响力可能会是持续性的。因为一个事件,它的影响力是逐步出现的,比如说乐视,这样的一个事件,那么对于它的news将是很多持续了很长时间的可能。可能一则关于乐视的新闻出来后会有三天的影响力。但是,过了三天后可能会有另外一则跟他非常相关的news出现了,这就是这个事件的持续性。

  还有一个,要评估这个新闻的情感。比如我们指导昨天乐视的新闻里有很多关于他的IPO的问题,,那么这个新闻出来后,从文本分析的角度如果能通过计算机的方式判断出来这则新闻对于乐视来说是极度负面的,那么你的这个语言和处理文本的能力,计算机处理文本的能力就可以了。

blob.png

  具体到投资上来说,我们可以选取的新闻数据来源包括新闻媒体公开的一些报道、上市公司的研究报告公告,这样的新闻是比较正式的。还有一部分叫做news的量化分析,这个是指的是当一则news出来以后在金融市场产生的影响我们需要量化的分析。那么这样的一些热度,包括主题和概念的活跃程度,其实从侧面为我们提供了可形式化的可能。我们可以把这些非结构化的文本转化成可形式化的数据,然后进入到我们投研的系统里。在技术上我们会采用一些NLR 一些处理方式,自然语言处理的、文本分析的热度和情感。有些机器学习的方法来帮助我们做一些抽取。通过这些技术能帮助你快速的浏览一则新闻。然后通过快速的处理进入到你的数据库里,这样的话可以给你的微形式化分析提供一些基础。

blob.png

  从新闻数据里进行选股这个是方式和方法我觉的是比较可行的。它的技术主要是通过区分新闻中的好消息坏消息,然后关联到重要的上市公司和重要的行业。通过这样的方式来构造你所投资的股票池,通过这个股票池可以相对快速的进行调仓换仓,然后做出一个资金曲线,所以我觉得新闻数据也是直接影响股价变动的一直最直接的要素。因为影响我们上市公司每天交易价格的因素很多,基本面数据基本上会每季度来发布。在这期间影响价格变动最重要的其实就是news。无论是这个新闻是出现于主流媒体还是出现于上市公司通过微博跟大家互动的一条短信息,那么这样的瞬时的信息暴露都有可能引起价格的波动。

blob.png

  从我们公司来说还比较认可通过数量化的方式来做投资的一个趋势随着数学、统计学一些重要的金融分析工具的出现,纯量化的投资现在也成为一个重要的流派。这个流派其实在美国是一个比较久远的流派,因为中国市场本身成熟度也没有那么高,尤其是股票市场的各种限制,对于数量化来说也算是刚刚起步。比如说我们在全球的一些策略里面,数量化策略在中国慢慢的会越来越被大家所接受。目前来说在中国的商品市场里面将近百分之七八十的交易都是程序化或者数量化的自动交易。在股票市场这个的数据还没有这么好,因为咱们的股票市场是不允许这种API进行直接交易的。因为程序化会对股票市场造成比较大的波动,那么这次在上次的股灾中,把一些程序化的API接口都封掉了,大家是用不了的。我们公司就是秉承这么一个思考和理念。我们的员工都是工科出身可以自己做一些程序模型、统计、算法来帮助我们做一些投资的决策,建立一些数学模型,然后去验证它。验证完了以后我们可做一些测验,测验完了我们进入真正的产品阶段。

  美国大数据金融公司:

blob.png

  在这种大数据的一些方法或者应用的金融领域,其实在国外比较久,在国外最早出现的是以风控、银行为主,比如说银行的信用欺诈分析,这是一个比较典型的场景应用大数据的方式。再贵内以蚂蚁金服、京东他们为代表的利用数据来进行的一个风险测评或者信用测评。还有一些保险公司利用数据来测算你的保险水平,这些是在国外比较先行的。后来哦通过数量化的方式慢慢进入到对冲基金领域里面,于是对冲紧紧就会专门利用这些社交媒体的数据再做一些模型,通过这些模型来发现市场中的趋势时间和情绪。

blob.png

  大数据投资在中国其实也已经开始从20114年年底到2015年是发展的比较快的一个阶段。然后国内许多大数据公司,尤其是互联网公司纷纷去跟传统的基金公司来合作发行这种用数量化或者大数据的方式来做的基金。比如说百度和广发基金他们是通过利用百度的很多搜索引擎的数据来监测上市公司的一些热度来做的。南方基金和新浪财经通过利用后台的一些点击数据或者行为数据来做的。

  大数据量化投资的坚定道路:

blob.png

  我们认为这种应用是可行的,通过谷歌和推特的例子这种采用第三方可以辅助的金融大数据来帮助你投资是可行的。有三个比较重要的核心就是你要有广泛的数据来源,还要有一个优秀的数学模型的构建能力,最后还要有一个好的规则和风控能力。大数据投资有几个比较大的优势。第一个呢相对来说是一个比较创新性的也就是这些因子能力没有被大家广泛所采用也就是它的有效性是可以保持的;第二个是可复制性强,就是在不同的市场不同的板块里面它都可以进行复试,而且他的广度要更广一些,比如说我们很多情况下并不要求像个股那样去要收益,并不是因为依靠重仓个股来获取收益而是像广大的市场广度来要超额收益能力也就是这个布局能力是比较强的,在股票市场上相当于你的整个容量是比较巨大的。

  大数据分析VS机器学习:

blob.png

  现在比较热的大数据分析、机器学习如何在投资领域里面应用。大数据分析解决的是大样本下规律发现的问题。以前由于技术能力不足数据储备不足,这些顾虑发现问题是不能够被解决的,在现在数据量充足的情况下,在服务器和算法模型足够的情况下我们现在有能力来处理这样的问题。机器学习解决的是既定样本下一个拟合的问题。这种方式一定是在特定的环境特定的场景特定的领域才能解决拟合的问题。还有一个是机器自学习,大家比较了解的就是那个阿尔法狗的新一代号称在可以不适用历史样本的情况下自己学习,然后打败很多人,这就是机器自学习。他解决的问题是在既定规则下最优解的问题。它讲求的是最优解,它的解是超过其他的答案的,那么它的应用场景一定是特定应用场景,我觉得是这样的。

  大数据投资之路的阶段:

blob.png

  大数据投资有这么几个阶段,最基础的就是大数据和样本获取处理和解析的能力,这一版呢都会有很好的IT背景和程序化能力才能解决好这个问题。其次进入基础的统计和高级统计分析,一般我们做计算机学程序的人如果没有复合经验和学习能力,我们需要去修这样的统计和高级统计的能力。在统计的基础上才能进入机器学习,说白了并不是机器可以做的很好,一定是说你前期有很多工作是给它做好以后,才能进入机器学习的阶段,比如说我们可以用一些判定的方式、标注的方式这些都是人工去做的。在人工智能领域里有一句话工人有多智能机器有多智能,指的就是我们必须有大量的工作,然后才能做好机器学习,机器学习又分为有训练的和无训练的,现在一般情况下,我们做的很多算法都是有训练的。也就用历史数据来训练的,无训练我觉得只用于大类的分类。大类的分类我们可以做一些无监督的算法,其他的真的是一个无监督机器模型能够解决很复杂的问题,我觉得很不现实。

  量化多策略发展方向:

blob.png

  对于我们公司来说呢,我们比较认可用量化多策略方式来做产品的发展方向商品、期货、逃离、期权、衍生品等,这样不同的资产项下面都会有不同的策略。我们会更加注重那些利用数量化的方式来做 的策略,即使有这些策略,目前我们受益没那么明显,我们还会坚持这个道路,因为大数据投资本身跟我们的能力比较匹配,我们也愿意在这个方向上尝试。这张图就是给大家讲我们在不同策略上的一个配置。目前我们会在股票、固定收益债券投资,商品期货,一些逃离策略上面会做一些布局,还会做一些不同的基金产品,这样的策略的话我们会把它们分开在不同的方向上一个一个布局。

  伏流投资产品业绩汇总:

blob.png

  这张图是我们做的一些小产品,也是伏流投资公司成立以来做的几个产品。包括股票的、债券的、商品的,成立的时间有的长、有的短。我们基本上会在股票型产品上用到大数据,以及一些商品型的、债券型我们也会做一些数据的分析。我们的收益今年都还可以,回撤也比较低,也就比较考验你风控能力吧。

  非常感谢《首席财务官说》的平台,谢谢大家。

  关于钱包行云:

  钱包行云,面向企业客户群体,从企业日常费用支出管理入手,以提供出行、商旅、办公、福利等企业消费场景服务为基础,配合企业报销管理和费用管控工具,提供一站式的企业消费支出管理服务。

 

最近更新
科普

邮件订阅

软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
网络周刊
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
存储周刊
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
安全周刊
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家网
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。