No Code, No Life

データサイエンティストを目指すしがないエンジニアのブログ

Day 49 Kaggleコンペ初submit

出場コンペ決めるまで

奮闘記録

Feedback Prize - English Language Learning

https://www.kaggle.com/competitions/feedback-prize-english-language-learning/overview

  1. コンペの概要を確認.

    • code competitionなので、csvだけでなくnoteを提出しないといけない.
    • note のコードが正しく動くことが前提. 正しく動かないと、errorとなり、submitしたことにもならない.
    • CPU, GPUで動作するコートで、動作の制限時間は9時間. テーブルデータで、およそ3000行ほどなので、9時間の壁はないようなもん.
  2. データの概要をおさえるため、「begin」でnote検索し、易しそうなEDA結果を確認.

    • FB1, 2で似たような問題があった模様で、そのときにtab, spaceを除く前処理をしたらスコアが上がったとの情報?
    • スコアが高いcodeでも、前処理を行っているcodeがない. 前処理にも鍵がありそう.
    • すくなくとも/n, /tくらいは除いたほうがいいか
  3. Vote数の多いCodeをざっと確認

  4. 現状のアイデア

  5. Debarta以外の複数のTransformersでも試してみて、アンサンブルにかけるか
  6. LightGBMの結果も思いきってDebartaと一緒にアンサンブルにかけるか.
  7. Debartaで出した最終的なスコアを、XGBでスタッキングする?
  8. 前処理関係のアイデアがほしいが、note読んでてもあまり効果的なものが見つからない. 生データみても、普通のテキストでしかないので、言語処理関係を再度見直すか.

  9. 必要なこと

  10. 自然言語処理の基礎学習
  11. スタッキングの練習 (基礎から)
  12. Discussion読んでみる
  13. Debarta-v3-baseのref読んでみる.