蚂蚁嘉汇：机器学习是一把双刃剑-和讯网

机器学习是一把双刃剑，既不能“garbage in garbage out”，即随便使用市场数据作为输入，就寄希望于能产出有效的预测，好像万能药解决一切量化投资的技术难题。也不能因为不理解、不会处理过拟合而放弃了这把利刃，毕竟海量的交易数据包含大量人工挖掘不到的信息。而对于强化学习，蚂蚁嘉汇表示，2016年AlphaGo的大火带动了深度强化学习概念，使得他变为一个人尽皆知却又神秘莫测的方法，很多资金争相追逐。

其实强化学习这个概念可以追根随缘到上个世纪80年代。拿强化学习（Refinforcement Learning）来说，这个在计算机科学中大火的概念其实早在90年代运筹学近似动态规划（Approximate Dynamic Programming）就已经普遍在使用了。而更早的80年代，控制论中的随机控制模型（Stochastic Control）也在描述同一个建模方法。蚂蚁嘉汇认为，很多计算机竞赛的同学熟悉的背包问题使用的动态规划算法，其实本质上就是强化学习模型。对于量化投资，量化二字明示了这个领域是建立在统计学之上。业内使用较多的线性回归、多因子模型，就是统计学最稳健和最经典的模型。更复杂的非线性机器学习、强化学习的本质也是统计学，但是模型和理论之复杂，使控制训练收敛和泛化能力极为困难，因此业界往往谈之色变，资金谈其色变。

考虑到只是模型复杂程度的区别，我们认为没有所谓的机器学习派和传统派，大家都是使用的是统计学，只不过有的策略更依赖于复杂的统计模型，有的策略因为没有复杂的模型更依赖于复杂的先验金融知识。而Metabit Trading擅长的就是如何使用最复杂的统计模型尽可能代替对人工挖掘的依赖，又尽量避免过拟合和黑箱带来的困扰。有的策略更依赖于复杂的统计模型，有的策略更依赖于复杂的先验金融知识

传统的强化学习模型基于马尔科夫决策过程(Markov Decision Process)但是由于金融数据中，资产的合理价值是一种隐含状态，我只能观察从资产的当前交易价格、资产的基本面消息（如期货的上下游产业数据，股票的财务报表）等，这种情况下，我们更合适将问题建模为部分可观察的马尔可夫决策过程 (Partially Observed Markov Decision Processes, POMDP)。

蚂蚁嘉汇认为，传统机器学习，会对数据进行大量挖掘，使用特征工程来找到很多因子进行回归或分类。其实这种监督学习采用了一种替代目标函数（surrogate objective）的方式先进行训练。所谓使用替代目标函数就是说我们机器学习的目标和最终想要达到的目标是有差别的。具体结论还需要资金去证实。

（责任编辑:董萍萍）

蚂蚁嘉汇：机器学习是一把双刃剑

标签推荐

推荐频道