股票池多少合适?
关于量化策略模型的股票池,根据策略类型不同而有一定差别,但大多都遵循这样一个原则: 所涉及标的越多,策略的准确性(或者盈利可能性)越能接近真实值;反之则越差。 因为任何一种交易策略都不是万能的,它或多或少都存在着某种固有的偏差或局限,而只有尽可能多地涵盖市场信息才能尽量消除这些偏差和局限,所构建的策略模型才会更贴近实际情况并发挥应有的作用。所以从这点上来说,策略越复杂并不代表越好。 当然这里所说的“简单”不是指策略本身的简单,而是指策略对市场影响所带来的结果而言,最好能让其在控制风险的前提下,最大概率地获取到市场收益,这才是真正的“大道至简”。 然而需要注意的是,这里的“多”并非毫无限制,其实只要策略能够包含足够多的有效信号就可以开始使用。因为如果一个策略要收集大量历史数据才能建立起来并且很难捕捉到有效的信号,那么说明该策略本身不够优秀,即便强行增加标的的数量来扩大策略的信息量也不一定能改善其性能。
在实际的建模过程中,通常根据变量个数将数据分为训练集和测试集,其中用于构建模型的样本叫做训练集,用于评估模型的性能的样本称做测试集,两者比例一般设为80比20。也就是说如果有1000组数据,则选出800组作为训练集,剩下的200组作为测试集。 另外,由于人类思维往往存在定势效应,因此为了排除主观因素的影响许多研究都会让模型进行独立模拟,也就是让每个标的拥有独立的随机数生成器(RNG),这样每次运行模型时各标的反应都是不一样的,从而避免了策略基于历史数据产生的依赖性问题。