No Code, No Life

データサイエンティストを目指すしがないエンジニアのブログ

Day50 Dataset探索

キカガク進捗日記

1. 自然言語処理章末問題クリア.

BoWによるベクトル化とNNによる分類で、精度90%近くは達成.

他にもTf-Idfを用いた分類をためしたが、全く精度出ず. この違いは何なのだ?

Tf-Idfについては下記サイトが分かりやすい.

https://www.sejuku.net/blog/26420

一旦、これでNNに関する基礎の基礎講座はすべて1周目完了.

2. Flask基礎完了

  • 犬/猫を判別するtoy appの仮組完了.
  • DBとやり取りせず、画像をHTMLに直接組み込むやり方になっているので、実装自体は簡単ではあるが、さらに応用していく必要あり. (というか、これで終わりではいけない)
  • キカガク会長の著書 (下記)を読んだ所、DBとの連携まで詳しく記述があるので、それを参考に、DBとの連携~本格的なAPP作成まで腕を磨く.

3. Django講義ざっと見

  • DBのCRUD操作はFlask講義内になかったので、ざっとDjangoの講義内容で確認.
  • アプリの開発の流れも書いてあり、Flask講義よりもずいぶん丁寧な印象.
  • ただ、一旦はFlaskで、Docker + DBを操作に慣れることを優先し、プロトタイプを組めることを優先したい. → 規模が大きくなってきたらDjangoへ.

4. 自主制作アプリ構想~データ取得まで

  • 一番最初は手軽にできるものを作る.
  • 雲の種類を判別できるアプリを作りたい. (ずっと前から雲のことが好きだった. 秋は特に雲が高く、美しい)
  • スライド作成開始
  • データのスクレイピングも開始
    • datasetを英語も含めて探したが、いい感じのdatasetが見つからず
    • 「雨雲」「雷雲」については、それぞれ乱積雲と積乱雲で調べないと適切な画像がヒットしない.

5. 今後の課題

  • Dockerの基礎学ぶ
  • DBとの連携 (一旦はFlaskで行う)
  • Flaskによるアプリ作成開始 (ネタはあるので、簡単なスケッチとモデル作成から)
  • 画像認識/自然言語処理の発展学習
  • データ分析 (実務)

Kaggle日記

本日はキカガクに集中したため進捗なし.