No Code, No Life

データサイエンティストを目指すしがないエンジニアのブログ

Day 48 SIGNATE、Kaggleコンペを始めました

データサイエンティスト分野で知らない人はいないであろう、データ分析コンペです.

ここ数日ブログ更新できていませんでしたが、寝る間も惜しんで分析進めた結果、SIGNATEでは金メダル2つ圏内取得 (クラスUP!).

Kaggleも念願の初submitに至りました.

Kaggleは本当に時間が取られますが、自分で手を動かして分析を進めると非常に勉強になります.

これまで精神論的な話しかできていませんでしたが、そこらへんの記録を残したいと思います.

2022/10/14の記録

  • SIGNATEのSOTAチャレンジに出場.

  • Kaggleよりかはとっつきやすいテーマだったため、1日で2個挑戦. なんと2つとも上位入賞.

①【第27回_Beginner限定コンペ】債務不履行リスクの低減 🥇

  • コンペ系初挑戦. とっつきやすいテーマ. SIGNATE begginer → intermediateへ昇格チャンスなので、これを逃さない.
  • 前処理を施し、とりまXGBoostぶちこみ. 決定木なので標準化とか欠損値処理は行わない. → 高いスコアでず....
  • 調べてみると、目的変数が不均衡. Under samplingで対応できそうかも.
  • 実際Under sampling、XGBoost(ハイパーパラメータチューニング済)で、うまくいった!祝!🥇金メダル🥇! 昇格しました.
  • 本当はアンサンブルとかスタッキングとか試してみたかった. まだしたことがないので...
  • まだ改善の余地はあるが、ランクを上げることを優先し、一旦これにてclose.

② SIGNATE Student Cup 2021秋:オペレーション最適化に向けたシェアサイクルの利用予測 🥇

  • 前職の経験を活かし、これは単純な移動平均モデルでいいのでは?と試行し、なんとうまくいく. SARIMAモデルとかも案外馬鹿にできない.
  • というか、このような「需要」予測って、影響するパラメタが多すぎて、かえって単純な移動平均モデルがうまくいくのかもしれん.
  • 案外、pandasでの処理に苦戦. まだまだpythonの腕が足りん.
  • 結果: 祝!金メダル🥇圏内!
  • URL: https://signate.jp/competitions/567/leaderboard

次やりたいSIGNATE SOTAチャレンジ

  • 「SIGNATE Student Cup 2021春:楽曲のジャンル推定チャレンジ!!」をやりたい. これも、テーブルデータからのclass分類なので、基本問題.
  • ざっとデータを眺めてみたが、外部データも必要なさそうなので、案外すぐにできそう.
  • これで金メダルとれば、SIGNATEのクラスはAdvancedくらいには上がるか.

現状のGit、キカガク進捗

Github

10/14 Github

キカガク

10/14 キカガク