上图这位帅哥,名叫约翰·博伦(Johan Bollen),是美国印第安纳大学教授。他用 Twitter 数据,搞了一个好玩的事情:预测股票。[BTW,从名字上看,他的研究生是中国人 Huina Mao 和 Xiao-Jun Zeng。]
为什么社交网络数据能够预测股市呢?他用的是行为经济学原理。行为经济学告诉我们,人的情绪,能够深刻地影响人的行为和决策。事实证明,这个基本原理也适用于更广大的人群,使社群的体验情绪影响相应的决策,因此公众情绪与经济指数有关,甚至可能用来预测经济指数。
博伦教授大量收集了 Twitter 上的 140 字推文,通过文本分析,将其情绪与道琼斯工业指数(Dow Jones Industrial Average, DJIA)建立关联。他和他的团队使用了两种情绪跟踪工具,来研究每日推文的文本内容:
- OpinionFinder:用来度量推文的正面和负面情绪
- GPOMS(Google-Profile of Mood States):从Calm, Alert, Sure, Vital, Kind 和 Happy 六个维度来度量情绪
作为试验,博伦教授比较了总统选举和感恩节期间的公众反应与推文的关联,交叉验证了二者的情绪时间序列。
之后,通过格兰杰因果检验分析(Granger causality analysis)和自组织模糊神经网络(Self-Organizing Fuzzy Neural Network),博伦教授研究了 OpinionFinder 和 GPOMS 揭示的推文公众情绪,作为 DJIA 每日收盘值的的预测。
博伦教授所用的方法如下图所示。
结果令人振奋!博伦教授的预测准确率达到了87.6%。
上面的内容源自博伦教授的论文,稍微学术了一点。感兴趣的朋友,可以从这里直接获取他的论文。
下面这张图则比较通俗易懂,可用于解释给水深火热之中的广大股民。
用大数据玩股票的教授不止博伦一人。另一位更有名的教授,江湖人称“可穿戴设备之父”、MIT 人类动力学实验室主彭特兰教授(Alex Pentland),搞了一个更有实用价值的大数据股票项目。
彭特兰教授发现,那些在社交网络上分享信息的交易员中,通常只有极少数能赚到大钱,大部分交易员都难以赚钱、甚至会赔本。为了提升交易员的业绩,人们容易想到一些常规解决方案,如设法提升交易员的知识和专业水平。这些传统方法确实能起到一些作用,能够让交易员的业绩提升一到两个百分点。
彭特兰教授使用社会物理学方法来解决这一问题。他以用来分析社会网络中想法传播的数学模型为基础,分析了交易员在社交网络上分享的数百万份详细信息。
他使用一个面向普通交易员的在线金融交易平台 eToro,而 eToro 融合了一个叫作 OpenBook 的社交网络平台。社交网络用户可以在 OpenBook 上方便地查询其他用户的交易、投资组合和历史表现,但是却不能看到其他用户在效仿谁。
用户可以在 eToro 上进行交易,主要有两种类型:
- 单次交易:本人进行一次普通交易。
- 社会交易:完全效仿另一个用户的单次交易,或者自动效仿另一个用户的全部交易。
许多用户公开他们的交易想法以让他人效仿。因为每当有人决定效仿另一个用户在 OpenBook 公开的交易记录时,后者就会从 eToro 获得一小笔钱。一个用户往往会选择效仿好几个用户。
彭特兰教授收集了 eToro 上 160 万用户的交易数据,用以考察近千万次的金融交易。他通过 eToro 平台数据,观察社会学习进行的过程,跟踪这种学习对于人们决策的影响,并评估这些决策是否会获利。简言之,这一平台让彭特兰教授拥有“上帝之眼”,能够观察个体之间的详细交流是如何同时影响他们的行为和最终金融结果的。
本质上,彭特兰教授的这一实验,是用来研究群体智慧的。结果表明,群体智慧处于孤立行为和“羊群效应”这两个极端之间。[研究表明,群体智慧通常弱于个体智慧,即使群体完全由高智商个体构成。这种现象称之为“羊群效应”或“百猴效应”。]
而良好的中间地带,正是社会学习(即效仿成功人士)能真正带来回报的地方。在 eToro 案例中,从孤立的个体交易员到陷入回音室效应[信息或想法在一个封闭的小圈子里得到加强]的交易员,以及位于中间的群组的盈利情况中,当社交网络内的交易员的想法达到适当的平衡和多样化时,与个体交易员相比,他们的投资回报能提高 30%。
因此彭特兰教授认为,避免羊群效应、提升群体智慧的关键,在于社会学习,即通过“想法流”(idea flow)促进社会网络激励。而对于个体而言,通过持续与他人交流来获得新的想法,并通过这种探索性行为创造更好的想法流,是保持活力、提升效率的关键。
以上内容,源自彭特兰教授的专著《智慧社会》。
再说回到股票。日本网上证券公司 kabu.com 也使用社交媒体上的海量数据,将其加工成股票交易参考信息,提供给顾客。
它使用的方法是:从社交媒体上的信息中抽取与对象品牌关联性较大的语句(平均每天可达1000万行),并对其中43000条语句进行验证,检验它们与46个对象品牌是否存在联系。
kabu.com 相信,在大量数据的基础上,或许可以预测未来股价的变动情况;通过这些信息与个人投资者过去的投资记录相结合,可以开发出最符合顾客需要的金融产品。