ポリマー(高分子)開発と分子シミュレーション

記事
IT・テクノロジー
“Drug Discovery”の記事でもお話しましたが、マテリアルデザインにおいては、現在一番進んでいる分野は創薬です。では、なぜ他の分野は創薬分野に追いつけないのでしょうか。ここでは、ポリマーを対象に、マテリアルデザインが抱える難しさを考えます。

ポリマーとは?

ポリマーは、小さな分子(モノマー)がたくさん連なった長い鎖状分子の総称です。我々の身近なところでは、車のタイヤ、ビニール袋などのプラスチック製品は全てこのポリマーです。図1は、その中でも代表的かつシンプルな高分子であるポリエチレンを表しています。ポリエチレンは、その名の通り、エチレン(C2H4)がいくつも結合し長くなったポリマーです。我々が目にするポリエチレンは、そのような鎖状分子が大量に混ざったものです。このような混ざりあったポリマーは、お互いが絡み合っており、この絡み合いがポリマーの機械的特性に大きく寄与していることが知られています。

figure1.jpg
図1:ポリエチレンの分子の様子

ポリマーデザインの困難点

このような分子的背景を持つポリマーは、なぜAIを用いたマテリアルデザインが難しいのでしょうか。アメリカ国立標準技術研究所(NIST)のA. J. Debraらが出した論文を参考にしながら、要因をまとめます [A. J. Debra et al., ACS Macro Lett. 6, 1078 (2017)]。

ポリマーのデータ不足

A. J. Debraらは、まず、ポリマーのデータ不足を指摘しました。タンパク質や化合物は、古くからデータベースが確立されており、RCSBが管理するタンパク質構造データバンク(PDB)はその中でも代表的なデータベースです。一方、ポリマーにおいては、データベースが確立されていないため、ビッグデータの利を適用できていないようです。Debraらは、特に以下をポリマーデータベース作成時の困難点として挙げています:
■ポリマーは、多岐に渡る応用があるため、データベースに必要とされる物性値が多い
■合成されるポリマーの長さは、一定ではなく分布を持っているため、データベースに入れ込むべき情報が多い

適切なAIモデルの不足

Debraらは、ポリマーデザインの困難点は、機械学習のモデルの問題にはなく、ポリマーのデータ不足としていました。しかし、筆者は適切な機械学習モデルが無いことも大きな要因と考えます。
図2は、創薬(“化合物を対象とするAI”)と“ポリマーを対象とするAI”の仕組みを簡略化したものです。創薬AIの多くは、化合物を一度SMILE記法という文字列に変換して、モデルに入力することがほとんどです。前の記事でご紹介した、DeepChemもその一つとなります。そこから、モデルは得られた入力を元に、ユーザの所望の出力を吐き出します。一方、ポリマーAIにおいては、適切な入力形式が見出せていないのが現状です。入力形式の提案も、モデル開発の重要な一つだと思いますので、適切なAIモデルの不足と言えます。

figure2.jpg

図2.創薬AIとポリマーAIの違い

適切な入力形式とは

最後に適切な入力形式について考えます。簡単に言えば、「出力のための情報が入力に含まれているか」だと思います。例えば“化合物を対象とするAI”を見ると、“薬が効くかどうか”の予測には、化合物の疎水・親水基の数や立体構造が支配的な要因であることが予測されます。入力形式のSMILE記法は、化合物の最安定構造が一意に定まりますので、情報を含んでいることがわかります。ユーザが興味あるポリマーの物理量は、例えば粘度や弾性であり、これらの現象は絡み合いやポリマー同士の摩擦などメソスケール(ミクロとマクロの間)の現象であるため、ミクロ情報のみの情報しか持たないSMILE記法では不十分です。この適切な入力形式が発見されれば、ポリマーデザインの分野は飛躍的な進歩が期待できると思っています。

サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す