現在、こちらのフォーラムを参考にしてモデルを作成しています。
R256 ではsklearn のGradientBoostingRegressorを用いてモデルを作成しました。以下がそのパフォーマンスです。
データのノイズが多いからか、n_estimators が大きすぎるとテストデータでのパフォーマンスが悪いのが印象的でした。Tournamentでも使える知見が得られそうです。
tree の数が少ない場合にもパフォーマンスが良いとされるrotation forest がうまくワークするかも?
オルタナティヴデータなどを用いることができれば面白そうですが、どうやって銘柄分集められるのかわからないでいます。