返回第244章:确立“样本外”测试与简化原则  股海弄潮首页

关灯 护眼     字体:

上一章 目录 下一页

最新网址:m.23uswx.la
    第244章:确立“样本外”测试与简化原则 (第1/3页)

    铁律:永远留一手数据

    2010年7月26日,星期一,上午九点整。

    车公庙,三十平米的办公室里,气氛比往常更严肃。

    白板上还留着上周五晚上周寻写的那些字——“过度拟合防范指南(草稿)”。旁边是陆方那条“完美曲线”的打印件,被周寻用红笔画满了圈,标注着“可疑”“过拟合”“童话”。

    陆方坐在电脑前,脸色还有些苍白。但眼睛里的空洞已经消失了,取而代之的是一种更沉的东西——像是刚经历过一场大病后,终于看清了自己有多脆弱的那种清醒。

    陈默站在白板前,看着那几行字。

    “周寻,”他开口,“上周那件事,让我们看清了一个问题。”

    他顿了顿:

    “我们不能再靠‘自觉’去防过度拟合。得靠制度。”

    周寻点头。

    他走到白板前,把那几行“防范指南”擦了,重新写下几个大字:

    “默石量化研究——铁律两条”

    第一条,他写:

    铁律一:永远留一手数据

    下面,他画了一个时间轴:

    ```

    2005 2008 2010

    |------------|------------|

    训练集 样本外测试集

    (用于开发) (仅用于最终检验)

    ```

    他转过身,看着所有人:

    “从今天起,我们的历史数据,必须严格分成两部分。”

    他指着左边那段:

    “2005年到2008年底,这是‘训练集’。用来开发策略、测试因子、优化参数。可以反复用,随便用,想跑多少次跑多少次。”

    然后他指着右边那段:

    “2009年1月到现在,这是‘样本外测试集’。完全不动,绝对不能碰。”

    他加重了语气:

    “任何策略,在训练集上表现再好,也必须通过样本外测试,才能考虑实盘。”

    小林举手:

    “周老师,那如果样本外测试没过呢?”

    周寻看着他:

    “那就说明,这个策略在训练集上的表现,可能是运气,可能是过拟合。回去重新开发,重新优化。然后用新的训练集再跑,跑完再测样本外。”

    他顿了顿:

    “一遍没过,就两遍。两遍没过,就三遍。直到样本外也能跑出稳定的结果,才能考虑实盘。”

    小林在本子上飞快地记着。

    陆方忽然开口:

    “周老师,那我们现在手里的数据,只到2010年7月。样本外只有一年半,够吗?”

    周寻想了想:

    “不够理想。但够了。”

    他走到白板前,又画了一条时间轴:

    ```

    训练集 验证集 测试集

    | | |

    2005-2007 2008 2009-2010

    ```

    “标准的学术做法,是分成三份:训练集、验证集、测试集。验证集用来在开发过程中做初步验证,防止过度依赖训练集。测试集只在最后用一次。”

    他看着陆方:

    “我们数据不够,做不到三份。但至少,必须保证有一份完全没碰过的数据,做最终检验。”

    陆方点头。

    陈默站在旁边,一直没说话。

    等周寻讲完,他才开口:

    “第二条呢?”

    周寻走到白板前,写下:

    铁律二:奥卡姆剃刀——如无必要,勿增实体

    他转过身:

    “什么意思?在效果相近的情况下,永远选择更简单的模型。”

    他指着陆方上周那条“完美曲线”:

    “陆方那条线,为什么可能是过拟合?因为参数太多。他把动量因子的回溯期从6个月

    (本章未完,请点击下一页继续阅读)
最新网址:m.23uswx.la

『加入书签,方便阅读』

上一章 目录 下一页