タイタニック号の乗客情報からその後の生死を機械学習で予測するよ

Pocket

こんにちは、次郎作こと布施田泰之です

まだ、細々とPython/機械学習の勉強を続けています。

 

先週の講義は「Python」がテーマだったので、その復習をしたのと、

今週はコンペティションの課題が出されました。

 

その内容が、

「タイタニック号の乗客のデータから、その乗客が生き延びるか死んでしまうかを機械学習で予測しろ」

というものです!

 

なんかめっちゃ機械学習してる感ある!!!

どうやら機械学習の入門としてとても有名な課題のようです。

 

さすがにPython学び始めて1ヶ月くらいなので、全部手打ちでコードしていくのではなくて、解説付きのコードを眺めながら機械学習の流れを勉強する、って感じで勉強しているのですが(上級者はより予測精度の高い機械学習を行って同じ受講者と争う)、

めちゃくちゃ面白い!

 

こうやって、予測モデルとか作ってるんですね!

てんかん発症の予測モデルとか、色々臨床でも機械学習を用いた研究がなされているけど、その舞台裏を覗くことができてより背景知識が深まりました。

データクリーニングから始まり、

データの特徴を可視化して眺めたり、

欠損値の取り扱いを決めたり、

数値データとカテゴリカルデータの違いに気を配ったり、

多重共線性に気をつけたり、

生(0)と死(1)に二値データが目的変数なのでロジスティック回帰モデルを作成したり、

と、医療統計の場で勉強した内容が盛り沢山でした!

 

すごい医療統計で勉強してきたことが発揮されました!

学問の有機的な繋がりを感じて、

思わず「あっ!」って一人で叫んでしまいました笑

 

その機械学習の流れをみていて、

おそらく医師が医療現場での機械学習の技術を応用するときに活躍するだろうなと思う点は、

・データ収集のタイミング

・データの特徴を眺める(Exploratory Data Analysis)タイミング

・機械学習の精度を上げるためのドメイン知識に基づく特徴りょうエンジニアリング(海難事故だからこうした特徴量が鍵を握っているだろう、というそれぞれの問題に特有の背景知識)

などですかね!

 

やっぱり、医療現場の機械学習には臨床経験の豊富な医師が入らないと行けないだろうなぁ、という感覚は間違いはなさそうです。

 

個人的には、今後の流れとして、

・ビックデータを用いた因果推論に基づく(医療)政策の決定

・機械学習を用いたデータ解析や予測モデルの医療現場への応用

が、絶対くると思っているので、

そういった専門性をつけておいて、時代が追いついてくるのを待とうと思います笑

 

それでは、これからも勉強内容を更新していこうと思います!

 

布施田泰之

前の記事
Pocket

Leave a Comment