データサイエンスラボさんより賞金付きのコンペが発表されました。
・コンペ名:気象データによる鉄道支障予測
・期間:2014/06/20~2014/08/31
・懸賞総金額:¥350000
・スポンサー:株式会社 NTTドコモ
https://datasciencelab.jp/
予測スコアで競うものですが、ZIPファイルを展開させると1GB以上あるものもあり、データ処理に工夫が必要です。そのままHadoopやMahoutに流しこむのもよし、環境が整っていないならランダムサンプリングをするのもよし、といった感じでしょうか?
データの中身は詳しくは見ていないのですが欠損データなどもあるはずです。その場合はどう穴埋めするか、どの変数が使えそうか等々。
分析手法は?オーバーフィッティング覚悟でランダムフォレスト?それともSVMで汎化?はたまたロジスティック回帰?状態空間モデル?この辺りもキモになってきそうです。
期間も2ヶ月ほどなので時間ができたら集中してやってみるのも良いかもしれません。