【中文】使用中文的朋友,一起聊聊

老kaggle发烧友, 从2016/2017年开始关注Numerai, 20+个features的时候玩过一段时间后就断了几年回去kaggle上继续比赛了。不过这几年一直有关注Numerai的进展,觉得skin in the game是个非常有革命性的概念。

去年好朋友看玩得很好,很是羡慕 - 所以今年几个月前我自己有开始入坑了。 现在从数据上,比赛的形式上,社区的建设上, 觉得都做得很好。 和几年前比觉得是进步真是很大的。

以后会继续积极参与 :smiley: :rocket:

1 Like

请问大家有什么好的方法提高模型表现么?我先分享一下我做的:

  1. 用optuna来进行超参数调参,这个对模型表现提升很大
  2. 把feature的value distribution分类(大概有14个distribution),然后每个distribution都加入random noise,通过MDI,和SHAP来做feature selection.筛选完最后只用了140多个feature,模型的表现也有所提升
  3. feature neutralization: 把最后target按140多个feature进行neutralization,这个力度太大的话会显著增加corr sharpe,但是有损mean corr,我把proportion设成0.5,效果很好

因为刚做这个不到两个月,所以还有很多可以尝试的,接下来准备尝试换loss function尝试,还有将era按表现分组进行训练

image

这是我现在模型的表现…离做的好还是有很大的距离,signal也在做,现在表现不是非常好,只有120%APR…做这个真的有些时候挺费时的,希望使用中文的朋友一起分享自己的提高方法,我们一起提高模型表现!

1 Like

感谢分享。

数据分析不是我的专业,所以在建模上,还是严重依赖我所使用的工具 - Azure Machine Learning studio.

有使用 feature filter 的功能,选择了150个参数。也使用了 Hyper Parameter 对树模型进行优化。还没有找到使用 Azure ML studio 做参数中和的自动化的模块链接。

每次递交validation的结果,大多是黑色,或者红色。还没看到过绿色。

在 signal 方面,好像结果比 tournament 要好。由于我做外汇交易,所以选取了在外汇交易终端有数据的 300多个股票。可以直接利用终端的指数建模。现在每周提交的 APR 很高。但实际交易结果则有上有下。还需要观察。

1 Like

请问一下signal建模你都用哪些feature呢?我自己现在只用了rsi,macd和sma作为输入,有什么别的指数或者signal可以参考么?

我使用了Oscillator 指标, 在多个时间空间维度上采集数据建模。APR 有 700+. 感觉 overfit .

谢谢大家的分享, 我这里分享一下我的validation的方法。主要的idea是尽量利用validation1和validation2 之间的ratio,同时侧重考虑val2的corr和sharpe. 以下这图是我参考的metrics

我发现如果光是一 val_corr或val_sharpe来做参考值的话,有时会出现val1 corr很高,而val2很低的情况. 考虑到val2来源于train+val1后好几年的数据, 直觉就是val2 corr 和sharpe相当要靠谱一些。 另外就是尽量找va1/val2 corr ratio 或这va1/val2 sharpe ratio比较低的, 也就是说重点找一些能稳定预测n年后数据的模型。

在此之上, 再加上live rounds上的表现来进一步评估。 目前发现我的模型在live rounds上的表现和以上的表格还算吻合, 有几个比较不符合这个规律的,还有待进一步观察。

总之, 我的特征选取和目模型参数目前都是按这个方式做。 没怎么做特征工程,可能有时间会补一下。

1 Like

Chinese : 前几轮表现挺稳定的。可以考虑出售了。

还是希望v2 sharpe能上1, 再搞搞 :slightly_smiling_face:

这个怎么玩啊,看起来好硬核的样子
有比较懂得选手么?

这里有不少使用中文的选手。有什么问题请随便问。

Hello,大家好,我最近做了个新模型。从参数上看,比自己之前的模型好了很多。不过模型上线不久,还没有resolved的成绩。我很期待看它后面的表现。

只是学习了论坛上的一些idea,然后加上一点点自己的想法。

2 Likes

我想玩下Signal,不過未睇明文檔,唔了解原理,代碼都係未睇明。我見到Docs裡面已經有日文版,所以都希望增加個中文版。 :laughing:

在日文文档里有些资料很不错。建议用 Google 翻译读一下。numerai signal 的思路和 tournament 很类似。但参数需要自己找。

1 Like

@zhangxiang 不需要AWS的,我也只是用自己的电脑,没有用云服务器。2020年我出金入金都没问题,现在还是不是这么畅通我就不知道了。

这个sharpe高的很呐, 有无用validation data来train呢? 期待分享resolved后的结果 :grinning:

同样希望开始玩Signal, 不过10x rows & 3x features classic data要出来了, 估计要在上面倒腾一下呢 - 希望自己的机器能撑住啊

这个表现很好唉,有哪些论坛的idea比较有用可以分享一下么

没想到那么快就出了massive data,所以我之前的模型没怎么用就要退役了。

按之前的思路在新数据上训练,效果是这样:

2 Likes

Chinese content : 新模型需要的计算量太太了。 作为一个业余爱好者,一直尝试使用网络的免费资源来参与这个活动。但从 AZURE MACHINE LEARNING STUDIO 到 COLAB, 都不可以支持新的数据要求。 我会继续使用旧数据,直到 NUMERAI 终止提供旧数据服务。 而我的重心也将开始转向 SIGNAL。 在那里,数据使用和回报都有优势。 END

1 Like

请问这是你的模型吗;
SUNKAY1