Day 49 Kaggleコンペ初submit
出場コンペ決めるまで
- SIGNATEで調子に乗って、Kaggle初コンペ出場. → まず良さげなコンペを探すのに一苦労😭
最終的に君にきめた!: https://www.kaggle.com/competitions/feedback-prize-english-language-learning/overview
Kaggler大先輩様の奮闘を見るべく、kaggle wikiのリンクを全部見る.
- https://kaggler-ja-wiki.herokuapp.com/%E3%81%AA%E3%82%93%E3%81%A7%E3%82%82kaggle%E9%96%A2%E9%80%A3%E3%83%AA%E3%83%B3%E3%82%AF
赤裸々に「最初はMost votesのほぼコピペだった」とかいう先輩もいて驚き. なるほど、誰でも最初はbegginerなのだ.
Kaggle日記を自分も始める. ツイッターは、時間を溶かしそうなので現状手を付けず.
思ったよりも時間をかけてしまい、キカガクの講義進められず😭
丁寧なデータ確認、ドメイン知識の獲得、世界のKaggler様のNote/Discussionを読むこと、がメダル獲得の近道そう. 焦ってやってもあんまし意味ない🙄
奮闘記録
Feedback Prize - English Language Learning
https://www.kaggle.com/competitions/feedback-prize-english-language-learning/overview
コンペの概要を確認.
データの概要をおさえるため、「begin」でnote検索し、易しそうなEDA結果を確認.
- FB1, 2で似たような問題があった模様で、そのときにtab, spaceを除く前処理をしたらスコアが上がったとの情報?
- スコアが高いcodeでも、前処理を行っているcodeがない. 前処理にも鍵がありそう.
- すくなくとも/n, /tくらいは除いたほうがいいか
Vote数の多いCodeをざっと確認
- Debarta-v3-baseを使用. ハイパーパラメータチューニングはしていない.
- https://www.kaggle.com/code/yasufuminakama/fb3-deberta-v3-base-baseline-train
- https://www.kaggle.com/code/yasufuminakama/fb3-deberta-v3-base-baseline-inference
- 再現実験を行うも、submissionでerror. Timeoutじゃないエラーなので分からず.
- それぞれのスコアをLightGBMで試す猛者
- Debartaのbase, largeでそれぞれでスコア出して、アンサンブル (submit完了!)
- https://www.kaggle.com/code/cdeotte/rapids-svr-cv-0-450-lb-0-44x
- とりあえず初submitはこれで. (800位/1480位中)
- 今回、LB scoreが0.01違うだけで順位がガラリと変わる!逆に、ちょっとしたチューニングで、銅メダルの可能性は十分にある. → 過学習が心配だけど、やっていくしかない.
- Debarta-v3-baseを使用. ハイパーパラメータチューニングはしていない.
現状のアイデア
- Debarta以外の複数のTransformersでも試してみて、アンサンブルにかけるか
- LightGBMの結果も思いきってDebartaと一緒にアンサンブルにかけるか.
- Debartaで出した最終的なスコアを、XGBでスタッキングする?
前処理関係のアイデアがほしいが、note読んでてもあまり効果的なものが見つからない. 生データみても、普通のテキストでしかないので、言語処理関係を再度見直すか.
必要なこと
- 自然言語処理の基礎学習
- スタッキングの練習 (基礎から)
- Discussion読んでみる
- Debarta-v3-baseのref読んでみる.