キャリア

プログラミング初心者OLがpythonを勉強してKaggleへ参加するまでに行った勉強方法(2)

前回の記事ではプログラミング初心者がプログラミングの勉強に手をつけるところまで紹介しました。今回はKaggleに挑戦するところまでご紹介します。

プログラミング初心者OLがpythonを勉強してKaggleへ参加するまでに行った勉強方法(1)エンジニアでもなんでもない、プログラミング初心者のアラサーOLがPythonを勉強してKaggleに出場するまでの勉強法をまとめます。...

Kaggleとは?

Pythonでできることの一つに機械学習モデルの構築があります。

Kaggleは機械学習・データサイエンスに関する世界最大級のコミュニティです。企業や政府などの組織とデータサイエンティスト/機械学習エンジニアを繋いでいます。

kaggle top

Compete

機械学習モデルを作成し、その精度を競うコンペティションです。最も有名なのがタイタニック号の生存予測です。タイタニック号の乗客に関する属性データ(年齢、性別、チケットのクラス、など)と死亡/生存の結果がセットになったデータが与えられ、乗客の属性データから生存確率を予測するモデルを作成するコンペです。

初めてKaggleに挑戦するときはここから始めるのがよいでしょう。Kaggle、タイタニック、などのキーワードでGoogle検索すると参考になるNoteやブログがたくさんヒットします。

Datasets

機械学習モデルを作成するために必要なデータが公開されています。先ほどのタイタニック号のようにコンペ用に用意されたデータもあれば、そうでないものもあります。

最近だと新型コロナウィルス (COVID-19) に関するデータが多く公開されています。

Notebooks

Kaggleが初心者の勉強にも使える理由はこのNotebookにあります。Notebookとはコンペの解法を説明とコード付で公開しているものになります。特にコンペのランキングが上位の人が公開しているNoteを読んで、再現するだけで一連の機械学習モデル作成の過程を学ぶことができます。コンペページの「Notebook」タブからそのコンペに関連するNoteを確認できます。人気のものを覗いてみて、何をやっているのか解読してみましょう。

私が参考にしたNotebook

Titanicのコンペで最もスコアが高いNotebookはこちらです。