生存時間分析、イベント分析、コホート分析のテクニックを上級クラスにします。
『CIBMTR - 造血幹細胞移植後の生存率予測における公平性』データを使い、イベント分析のテクニックを講習します。
解くテクニックは、標準化していますので、応用範囲が広く、知らない間に実務の難問が解けるようになります。
【この課題の難しさ】
### 1. 医療データの複雑性と多様性
* 欠損値やノイズ:医療データは、必ずしも完全なデータであるとは限りません。欠損値やノイズが含まれている場合、データの前処理が非常に重要になります。
* 非線形性:生物の生存率は、単純な線形関係で説明できるものではなく、複雑な非線形な関係を持つことが予想されます。
### 2. 不均衡データ
* 生存者と非生存者の偏り: 一般的に、医療データは生存者が多く、非生存者が少ないという不均衡なデータとなる傾向があります。
このため、少数クラスの予測精度を向上させるための特別な手法が必要となります。
### 3. 公平性と倫理
* バイアスの排除:モデルが特定の集団に対して不公平な予測を行わないように、バイアスを排除する必要があります。
ジェンダー等の問題起きないように、公平なモデルにする必要があります。
* 説明可能性: モデルの予測結果がなぜそのようになったのかを説明できることが求められます。
【使う技術】
1.生存時間解析の深層学習版:DeepSurv, SurvTrace
2.optuna
3.colab 5セッション(5台のコンピュータを使います。)
4.無償生成AIによる参考コードの生成
基本、教科書では禁止されている手法を駆使しています。
(教科書どうりにやっていては、AutoMLに勝てません。
各専門分野のリスキング集団に勝てません。)
ご理解いただけるまで、何回も説明します。
Python初心者の方は、Pythonについても、丁寧に説明します。
【セールスポイント】
1.この課題が解ければ、一般j的な仕事の課題は、楽々、解決します。
2.サブスクでも構いません。サブスクの金額は別途相談。途中解約可。
以上
以下の登録、加入、参加をお願いします。
1.Kaggle ここからデータの入手をお願いします。
2.colab Pro+
3.googleドライブ 60GB以上
講習で開示しますコード、ノウハウ、考え方は、守秘でお願いします。