前回の記事ではプログラミング初心者がプログラミングの勉強に手をつけるところまで紹介しました。今回はKaggleに挑戦するところまでご紹介します。

Kaggleとは?
Pythonでできることの一つに機械学習モデルの構築があります。
Kaggleは機械学習・データサイエンスに関する世界最大級のコミュニティです。企業や政府などの組織とデータサイエンティスト/機械学習エンジニアを繋いでいます。

Compete
機械学習モデルを作成し、その精度を競うコンペティションです。最も有名なのがタイタニック号の生存予測です。タイタニック号の乗客に関する属性データ(年齢、性別、チケットのクラス、など)と死亡/生存の結果がセットになったデータが与えられ、乗客の属性データから生存確率を予測するモデルを作成するコンペです。
初めてKaggleに挑戦するときはここから始めるのがよいでしょう。Kaggle、タイタニック、などのキーワードでGoogle検索すると参考になるNoteやブログがたくさんヒットします。
Datasets
機械学習モデルを作成するために必要なデータが公開されています。先ほどのタイタニック号のようにコンペ用に用意されたデータもあれば、そうでないものもあります。
最近だと新型コロナウィルス (COVID-19) に関するデータが多く公開されています。
Notebooks
Kaggleが初心者の勉強にも使える理由はこのNotebookにあります。Notebookとはコンペの解法を説明とコード付で公開しているものになります。特にコンペのランキングが上位の人が公開しているNoteを読んで、再現するだけで一連の機械学習モデル作成の過程を学ぶことができます。コンペページの「Notebook」タブからそのコンペに関連するNoteを確認できます。人気のものを覗いてみて、何をやっているのか解読してみましょう。
私が参考にしたNotebook
Titanicのコンペで最もスコアが高いNotebookはこちらです。