中国股票市场的有效配置至关重要(图)预测(组图)

0″>

本文共有字数,估计阅读时间。

股票收益的可预测性一直是金融界研究的重点。Eugene Fama 的有效市场理论指出,股票市场不能通过公开市场信息来预测。然而,越来越多的研究表明,利率、通货膨胀、投资者情绪、方差风险溢价等许多变量都可以显着预测未来的股市回报。

有这么多可预测的变量,单个股票的收益可以预测到什么程度?哪些股票特征真正为样本外收益预测提供了有效信息?这些预测能否用于股票资产配置并赚取超额收益?

中国股市发展迅速。2020年10月,中国股市规模创历史新高,总市值79.72万亿元。但是,中国股市还存在一些不成熟的特点,如散户比例高、交易频繁、股市波动较大等。

因此,在中国资本市场探索上述问题的答案,对于提高中国股票市场的资金配置效率至关重要。

由于影响股票收益的因素很多,因此很难提取出有效的信息。机器学习在解决这个问题上具有一定的优势。它可以将高维数据压缩成低维数据,同时保留更多信息。

机器学习是 Arthur Samuel 在 1959 年在用机器解决跳棋游戏的背景下提出的,是指一种计算机程序,该程序学习产生一种行为,该行为不是由程序作者明确编程的。相反,它可以揭示作者可能完全不知道的行为。这种行为的学习基于三个因素:

1. 程序消耗的数据;

2. 量化当前行为与期望行为之间的误差或某种形式的距离的度量;

3. 一种使用量化误差来指导过程以在后续事件中产生更好行为的反馈机制。

可以看出,第二个和第三个因素抽象了这个概念并强调了它深厚的数学根源。因此,机器学习在模拟人类行为感知和决策的同时,可以基于算法进行分析和推理,从而预测股市。

来自苏黎世大学的 Markus Leippod、Qian Wang 和浙江大学的 Wenyu Zhou 在国际顶级财经期刊《Journal of Financial Economics》上发表了《中国股市中的机器学习》一文。文章使用机器学习技术来分析资本市场的特点。开始研究我国股票收益的可预测性、组合收益不做空等,拓展我国资本市场领域的相关文献。

2021年4月投稿,2021年6月录用,2021年8月正式发表。

Part 1简介

本文从中国股市的特点出发,尝试进行比较研究,主要从三个方面进行:

首先,与以机构投资者为主的成熟市场相比,中国股市以所谓的“散户”为主。根据上交所2019年年报,散户数量占全部账户的99.8%。在散户比例如此之高的情况下,由于散户频繁的短线交易行为,整个市场的交易量将会增加。因此,整个市场的高波动性可能会导致股价在经济基础上出现波动。

因此,基于这一特征,笔者提出了一些由投资者的交易行为形成的新兴技术指标是否比公司的基本特征具有更大的定价能力(预测能力)。

其次,许多研究中国股市的学者提出,中国股市的关键特征是集中监管、银行主导和单一关系驱动。例如,上市国企的股价低于其基本面价值时受到保护。鉴于国有企业在中国资本市场中的重要性和独特性,对国有企业的研究需要更加细致和特殊的对待。

基于此,笔者提出:上市国企的股价是否会因为政府调控而变得不可预测?

第三,中国资本市场缺乏做空机制,金融领域经典的因子分析主要依赖于多空组合的构建。

基于此,本文从不做空操作入手,以使结果更容易被中国股市投资者理解和应用。

此外,目前中国股市还没有广泛可用的因子数据库。本文的另一个贡献是建立了一个可理解的因子集及其支持数据。

第 2 部分 模型和方法

在解释股票收益时,文章采用了经典的模型设置,即:

其中Zi,t为P维预测向量,具体设置为:

Ci,t 为 90 维股票特征向量,Xt 为 11 维宏观特征向量,di,t 为 80 维行业虚拟变量向量,⊗ 为两个向量之间的克罗内克积。

g(·)的具体形式没有具体说明,本文的目标是从一系列候选函数形式中找到g(·)的具体形式,以达到最佳的预测效果。

为此,本文考虑了g函数的十一种机器学习形式和两种简单的线性形式,即普通最小二乘、三因子最小二乘、偏最小二乘、LASSO、Enet、GBRT、RF、VASA、NN(单到五层)。

参考使用机器学习进行资产定价的文献,本文使用Huber损失函数作为优化目标函数,同时将样本集划分为三个子集,分别用于超参数选择、模型估计和预测效果评估.

第三部分实证分析

1.样本外预测效果

为了更好地分类研究不同模型对不同特征股票的预测能力,作者将所有股票分为六大类,分别是规模前70%、规模后30%、普通股股东前70%市值,按平均股东市值的后30%,国有企业和非国有企业。按月计算的预测 R2 如下表所示。

在考虑所有公司时,最简单的最小二乘模型也能够达到 0.81% 的解释力。三因子最小二乘模型的解释力甚至低于最小二乘模型,这意味着传统的线性三因子模型(SMB/BM/Momentum)无法覆盖大部分线性预测变量。

当考虑PLS、LASSO和Enet时,这些模型可以从大量的候选预测变量中提取出最具代表性的子集,具有更强的鲁棒性和泛化性,因此这三个模型的解释力上升到1%以上。这一结果表明,在进行月度盈利预测时,公司的整体特征是多余的,没有必要考虑所有可能的公司特征。

图片[1]-中国股票市场的有效配置至关重要(图)预测(组图)-老王博客

对于树模型 RF、GBRT 和五个神经网络模型,解释力均上升到 2% 以上,证明了机器学习算法在捕捉预测变量之间复杂交互方面的鲁棒性。

与顾等人的研究结果相比。(2020)在美国资本市场上,作者发现机器学习在中国资本市场表现出更强的预测能力。

中美资本市场预测效果的差异可能有两个原因。首先,中国股市的特点是大多数散户投资者偏爱小盘股。其次,国有企业在中国股市普遍存在,国有企业的透明度不如其他公司。那么接下来,笔者分别比较了企业的规模和性质。

从股票规模分组、股东平均市值分组、企业性质分组的研究结果可以看出,首先,所有模型对小盘股的预测能力都优于大盘股;其次,大多数模型对股东的平均市值较低。平均股东价值较高的股票的预测能力优于平均股东市值较高的股票;最后,非国有企业股票的预测能力优于国有企业股票。

总体而言,作者发现: 1.在中国资本市场,小盘股更容易预测。2.神经网络模型可以提供最稳健、最准确的预测。

2. 哪些因素最重要?

在完成预测能力比较后,作者进一步考虑了在所有备选预测变量中,哪些变量对预测中国资本市场的收益最为重要。下表显示了每个模型中 11 个宏变量的重要性。

对于 PLS 来说,衡量发行活动水平的 nti 是最重要的。我国自股市开市以来,实行审批制。众所周知,当股市下跌时,中国证监会会定期暂停或减少 IPO 的数量,这使得 NTI 在预测月度回报方面发挥重要作用似乎是合理的。

值得注意的是,nti 也是 GBRT 模型中最重要的宏观经济变量,也是神经网络模型中第二重要的变量。

最后,与其他基于回归的方法相比,树模型GBRT和RF中宏观经济变量的重要性分布相对更均匀,表明这两种方法可以检测宏观经济变量与股票特征效应之间潜在的复杂非线性相互作用。

上图总结了模型中每个宏观经济变量的变量重要性。总体而言,infl 和 nti 是预测中国股市回报的两个最有影响的宏观经济变量,尤其是在使用神经网络时。

另一方面,大多数模型都忽略了股息价格比 (dp)、市场波动率 (svar)、每股总收益 (ep)、期限利差 (tms) 和市场流动性 (mtr),因此不计算重要变量。

上面的热图还显示了不同模型中公司级特征的重要性。与市场流动性相关的股票特征是最重要的matlab写的人工神经网络bp股价预测模型,即流动性波动性(std_dolvol 和 std_turn)、零交易日(zerotrade)和不确定性度量(ill)。

第二组有影响的变量包括基本面信号和估值比率,例如行业调整后的资产周转率变化(chaotia)、行业调整后的员工变化(chempia)、总市值(mve)、近期收入增长(nincr)、行业调整后的利润率变化(chpmia) 和行业调整后的账面价值 (bm_ia)。

这些结果也与美国市场的调查结果形成鲜明对比。此前对美国资本市场的研究指出,传统的价格趋势指标是最具影响力的预测指标,而对于中概股而言,除了最近的最大收益(maxret)外,其他指标的重要性较低。

基本面因素的突出作用也是本节的一个重要结论,顾等。(2020) 表明这些因素对美国市场的重要性不大,但在预测中国市场时却很重要。

第 4 部分投资组合分析

在本节中,作者考虑了两种类型的机器学习组合。

第一个是多空投资组合。尽管多空投资组合是在投资组合层面评估机器学习方法性能的有用工具,但由于严格的卖空限制,很难在中国股市实施。因此,作者还考虑了第二种:只做多的投资组合。

上图描绘了基于不同模型预测形成的投资组合的累积收益,(以市场指数沪深300为基准)。在所有投资组合类型中,神经网络模型表现最好。

VASA 尽管简单,但在结果上仅次于 NN4 模型。此外,这两种方法的多空组合在 2015 年股市崩盘期间表现非常好(阴影区域)。此外,2020 年初 COVID-19 大流行带来的全球冲击并未导致投资组合回报显着下降。

因此,结果证实神经网络优于所有其他模型。此外,中国股市多空组合得到的夏普比率远高于顾等人在美国股市得到的夏普比率。(2020))。

如前所述,由于交易限制,多空策略可操作性较低,但即使是长线组合matlab写的人工神经网络bp股价预测模型,夏普比率最高也达到1.76,仍高于多空组合。美国市场。上述结论都证明了机器学习算法将其预测能力转化为经济效益的非凡能力。

第五部分研究结论

本文研究了几种机器学习方法在中国股市中的预测能力。

作者发现,最关键的预测因素是基于流动性的交易信号。此外,中国股市正朝着允许和鼓励基本面投资的方向发展。

作者还发现,散户投资者的短期主义在短期投资期限内产生了很大的可预测性,尤其是对于小盘股。同时,该研究还观察到国有企业的长期可预测性显着提高,因为政府信号在中国市场中发挥着重要作用。

对投资组合的分析表明,高短期可预测性转化为多空投资组合的高夏普比率。然而,作者还分析了只做多的投资组合,发现它们的表现仍然具有经济意义,因为在中国市场做空的可操作性较低。

总体而言,研究表明,机器学习方法可以成功地应用于中国股市,尽管中国股市与美国股市有很大不同的特点。

我们将对以上信息严格保密,感谢您对未央网的信任与支持!

非常感谢您的注册,请扫描下方二维码进入沙龙分享群。

非常感谢您的注册。请点击以下链接保存课件。

点击下载金融科技讲座课件

0″>[来源]

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论