第238章:确立研究范式 (第2/3页)
在那四步流程的旁边,写下一行大字:
“严禁根据近期市场表现倒推”
他放下笔,看着所有人:
“什么叫‘倒推’?就是看到最近某个板块涨得好,就去编一个因子来解释它。比如新能源涨了,就编一个‘新能源因子’。创业板涨了,就编一个‘创业板因子’。”
他顿了顿:
“这种因子,十有八九是过拟合的。它们在历史上可能根本没有意义,只是恰好拟合了最近几个月的行情。一旦风格切换,第一个死的就是它们。”
他看着周寻:
“这个叫什么来着?”
周寻说:
“数据窥探偏差。Data Snooping Bias。”
陈默点头:
“对,就是这个。我们做研究,不能用‘后视镜’去看问题。必须回到过去,站在当时的信息条件下,模拟真实的决策过程。”
他指着墙上那张流程图:
“所以,这四个步骤,必须严格按顺序来。先有假设,再回测验证。不准先看到好结果,再回头编故事。”
他扫视一圈:
“能做到吗?”
没有人说话。
但每个人都点了点头。
---
上午十点,流程讨论进入细节。
小林举手:“陈总,您说的那个‘数据窥探’,如果我们在研究过程中,看到一些有意思的规律,能不能反过来去想背后的逻辑?”
陈默看向周寻。
周寻想了想:
“可以。但要分两步走。”
他走到白板前,画了一条时间轴:
“假设你观察到,过去三个月,某类股票表现特别好。你可以去想,这是什么原因?然后提出一个假设——比如,可能是财报超预期的股票在季报后有持续动量。”
他指着时间轴上的“观察点”:
“这个观察,可以作为假设的来源。但验证这个假设,不能用观察到的这段数据。必须用观察点之前的数据做训练,观察点之后的数据做验证。”
他顿了顿:
“这叫‘样本外测试’。如果观察点之后的表现和观察期内一致,那这个假设才值得信。”
小林在本子上飞快地记着。
小吴忽然举手:
“周老师,那如果我们跑了很多因子,发现其中几个表现特别好——这算不算数据窥探?”
周寻看着她:
“算。而且是很典型的一种。”
他走到白板前,画了一个新图:
因子A 因子B 因子C 因子D 因子E
回测1 好 差 好 差 差
回测2 差 好 好 差 好
回测3 好 差 差 好 好
“如果你测了一百个因子,然后挑出表现最好的五个——这五个,大概率是运气。因为在随机数据里,总会有一批因子表现特别好,哪怕它们毫无意义。”
他看着小吴:
“这叫‘多重测试偏差’。测的因子越多,偶然发现好结果的概率越大。所以,我们必须用‘样本外测试’来验证——选出来的因子,必须在没见过的数据上重新跑一遍,才能证明它不是运气。”
小吴点头。
陈默听着这些,忽然想起什么。
“周寻,”他问,“你说的这些,在学术界有标准做法吗?”
周寻点头:
“有。一般会把历史数据分成三部分:训练集、验证集、测试集。”
他走到白板前,画了一个新图:
```
历史数据
├── 训练集 (60%): 用来开发策略、调整参数
├── 验证集 (20%): 用来验证策略稳定性、防止过拟合
└── 测试集 (20%): 只在最后用一次,评估真实表现
```
“训练集可以反复用,不断优化。验证集可以偶尔用,检查策略是否过拟合。测试集——只能跑一次,跑完就不能再改。这个结果,才是真正有说服力的。”
他看着陈默:
“我们现在的数据只有五年,分三段的话,每段太短了。但至少,我们可以留出最后一年做‘样本外测试’。”
陈默想了想:
“那就从2009年1月到现在,作为样本外。2005到2008年,作为样本内。所有因子开发,只能用2008年底之前的数据。2009年以后的数据,谁也不许碰。”
他看着所有人:
“这是纪律。”
没有人说话。
但每个人的表情,都比刚才更认真了。
---
中午十二点,流程讨论暂告一段落。
陈默让赵姐去楼下买盒饭,自己站在白板前,看着那张流程图。
周寻走到他身边。
“陈总,”他说,“您刚才说的那些,比我想象的更细。”
陈默看着他:
“细吗?我觉得还远远不够。”
他指着那张图:
“假设、回测、分析、归因——这只是框架。里面还有无数细节:数据怎么清洗,参
(本章未完,请点击下一页继续阅读)
『加入书签,方便阅读』