出場コンペ決めるまで

SIGNATEで調子に乗って、Kaggle初コンペ出場. → まず良さげなコンペを探すのに一苦労😭
最終的に君にきめた！: https://www.kaggle.com/competitions/feedback-prize-english-language-learning/overview
Kaggler大先輩様の奮闘を見るべく、kaggle wikiのリンクを全部見る.
https://kaggler-ja-wiki.herokuapp.com/%E3%81%AA%E3%82%93%E3%81%A7%E3%82%82kaggle%E9%96%A2%E9%80%A3%E3%83%AA%E3%83%B3%E3%82%AF
赤裸々に「最初はMost votesのほぼコピペだった」とかいう先輩もいて驚き. なるほど、誰でも最初はbegginerなのだ.
Kaggle日記を自分も始める. ツイッターは、時間を溶かしそうなので現状手を付けず.
思ったよりも時間をかけてしまい、キカガクの講義進められず😭
丁寧なデータ確認、ドメイン知識の獲得、世界のKaggler様のNote/Discussionを読むこと、がメダル獲得の近道そう. 焦ってやってもあんまし意味ない🙄

奮闘記録

Feedback Prize - English Language Learning

https://www.kaggle.com/competitions/feedback-prize-english-language-learning/overview

コンペの概要を確認.
- code competitionなので、csvだけでなくnoteを提出しないといけない.
- note のコードが正しく動くことが前提. 正しく動かないと、errorとなり、submitしたことにもならない.
- CPU, GPUで動作するコートで、動作の制限時間は9時間. テーブルデータで、およそ3000行ほどなので、9時間の壁はないようなもん.
データの概要をおさえるため、「begin」でnote検索し、易しそうなEDA結果を確認.
- FB1, 2で似たような問題があった模様で、そのときにtab, spaceを除く前処理をしたらスコアが上がったとの情報？
- スコアが高いcodeでも、前処理を行っているcodeがない. 前処理にも鍵がありそう.
- すくなくとも/n, /tくらいは除いたほうがいいか
Vote数の多いCodeをざっと確認
- Debarta-v3-baseを使用. ハイパーパラメータチューニングはしていない.
  - https://www.kaggle.com/code/yasufuminakama/fb3-deberta-v3-base-baseline-train
  - https://www.kaggle.com/code/yasufuminakama/fb3-deberta-v3-base-baseline-inference
  - 再現実験を行うも、submissionでerror. Timeoutじゃないエラーなので分からず.
- それぞれのスコアをLightGBMで試す猛者
  - https://www.kaggle.com/code/tangelus/english-language-learning-vectorization-lgbm
- Debartaのbase, largeでそれぞれでスコア出して、アンサンブル (submit完了！)
  - https://www.kaggle.com/code/cdeotte/rapids-svr-cv-0-450-lb-0-44x
  - とりあえず初submitはこれで. (800位/1480位中)
  - 今回、LB scoreが0.01違うだけで順位がガラリと変わる！逆に、ちょっとしたチューニングで、銅メダルの可能性は十分にある. → 過学習が心配だけど、やっていくしかない.
現状のアイデア
Debarta以外の複数のTransformersでも試してみて、アンサンブルにかけるか
LightGBMの結果も思いきってDebartaと一緒にアンサンブルにかけるか.
Debartaで出した最終的なスコアを、XGBでスタッキングする？
前処理関係のアイデアがほしいが、note読んでてもあまり効果的なものが見つからない. 生データみても、普通のテキストでしかないので、言語処理関係を再度見直すか.
必要なこと
自然言語処理の基礎学習
スタッキングの練習 (基礎から)
Discussion読んでみる
Debarta-v3-baseのref読んでみる.

No Code, No Life

データサイエンティストを目指すしがないエンジニアのブログ

Day 49 Kaggleコンペ初submit

出場コンペ決めるまで

奮闘記録