Day50 Dataset探索
キカガク進捗日記
1. 自然言語処理章末問題クリア.
BoWによるベクトル化とNNによる分類で、精度90%近くは達成.
他にもTf-Idfを用いた分類をためしたが、全く精度出ず. この違いは何なのだ?
Tf-Idfについては下記サイトが分かりやすい.
https://www.sejuku.net/blog/26420
一旦、これでNNに関する基礎の基礎講座はすべて1周目完了.
2. Flask基礎完了
- 犬/猫を判別するtoy appの仮組完了.
- DBとやり取りせず、画像をHTMLに直接組み込むやり方になっているので、実装自体は簡単ではあるが、さらに応用していく必要あり. (というか、これで終わりではいけない)
- キカガク会長の著書 (下記)を読んだ所、DBとの連携まで詳しく記述があるので、それを参考に、DBとの連携~本格的なAPP作成まで腕を磨く.
3. Django講義ざっと見
- DBのCRUD操作はFlask講義内になかったので、ざっとDjangoの講義内容で確認.
- アプリの開発の流れも書いてあり、Flask講義よりもずいぶん丁寧な印象.
- ただ、一旦はFlaskで、Docker + DBを操作に慣れることを優先し、プロトタイプを組めることを優先したい. → 規模が大きくなってきたらDjangoへ.
4. 自主制作アプリ構想~データ取得まで
- 一番最初は手軽にできるものを作る.
- 雲の種類を判別できるアプリを作りたい. (ずっと前から雲のことが好きだった. 秋は特に雲が高く、美しい)
- スライド作成開始
- データのスクレイピングも開始
- datasetを英語も含めて探したが、いい感じのdatasetが見つからず
- 「雨雲」「雷雲」については、それぞれ乱積雲と積乱雲で調べないと適切な画像がヒットしない.
5. 今後の課題
- Dockerの基礎学ぶ
- DBとの連携 (一旦はFlaskで行う)
- Flaskによるアプリ作成開始 (ネタはあるので、簡単なスケッチとモデル作成から)
- 画像認識/自然言語処理の発展学習
- データ分析 (実務)
Kaggle日記
本日はキカガクに集中したため進捗なし.