化学にデータサイエンスって使えるの?
データサイエンス、あるいは機械学習と聞いて皆さんは何を思い浮かべますか?
多くの方は「ビッグデータをはじめとした情報量の多いデータを分析・解析する分野」というイメージを持たれているのではないでしょうか。
例えば、顧客の閲覧・購買データを大量に集めて、効果的な広告を表示したり、マーケティング施策を決定したり、ビジネスへの活用が代表的です。
では、化学研究にデータサイエンスを活用できるのでしょうか。
結論、できます。大いに活用しましょう!
マテリアルズ・インフォマティクス(MI)、プロセス・インフォマティクス(PI)と呼ばれたりします。
ただし、化学特有の事情により工夫が必要なことが多いです。
本記事では、化学特有の事情やそれに伴う注意点、必要な工夫について解説していきます。
データサイエンスに興味のある化学研究者、活用を考えている初学者向けの記事です。
化学特有のデータ特性
近年、化学分野でも材料設計や反応最適化、プロセス制御、QSAR/QSPR といった領域で、機械学習・統計モデルを活用する事例が増えています。
たとえば、反応条件最適化にデータサイエンスを活用して開発期間を大幅に短縮したケースも少なくありません。
こうした事例では、化学特有のデータ特性に注意して、適切な手法を選択することで成功しています。
ここでは、化学分野のデータにどんな特徴があるのか解説していきます。
少数データ
やはり、化学研究者が活用したいデータのほとんどは実験で得られたものです。
実験系にも依りますが、実験データは多くても数十~数百件程度がほとんどで、これはデータサイエンスの立場から見ると少数データになります。
「数十点すら難しいよ!」という方も多いですよね。
一般的に機械学習というと、ビックデータと呼ばれる大量のデータを対象とします。
例えば、データの数や特徴によってどのアルゴリズムを使うと良いかを提案してくれる、機械学習界隈では有名なチートシートがあります。
これがその一部です。
Often the hardest part of solving a machine learning problem…
これを見ると、データ数が50以下の場合は「get more data (もっとデータを集めましょう)」で終わりです…。
化学屋としては突き放された気持ち…。そんなに実験できないよってなりますよね。
でも大丈夫。少数データでもやりようはあるんです。
測定誤差・再現性
測定誤差や装置間差、バッチ差などノイズ要因が大きいのも特徴ですよね。
これは化学に限った話ではないかもしれません。
対象とする実験系のノイズ要因や大きさを把握し、解析する前に「外れ値がないか」をしっかり確認したり、解析した結果に対しても「誤差を考慮したうえで有意差かどうか」を適当に判断しなければいけません。
メタデータ管理
試料情報や測定条件、前処理の履歴などのメタデータが非常に多いのも特徴です。
さらに、重要なメタデータが変わりうるのも厄介な特徴です。
例えば、これまでは重要視していなかった条件項目(湿度、光量など)が目的変数に効いていそうなことが分かったが、過去データにはその情報が記録されていなかったので使い物にならない、というケースが多々あります。
こうした情報の管理が不十分だと、解析結果の再現性や解釈に支障をきたします。
データ管理の重要性や方法論に関する記事は、いつかまとめたいと思います。
少数データに対する戦略
前項で挙げた化学データ特性の中で最も厄介なのは、ずばり少数データであるということです。
ここでは少数データを扱うための戦略についてお話していきます。
戦略は主に2つの方向性です。
「データの質を高める」と「無駄を省く」です。順に解説していきます。
【質を高める】実験計画法を使ったアプローチ
数が少なくても、「データサイエンス的に扱いやすいデータ」であれば、十分に解析・分析が行えます。
どういったデータであれば少数でも解析・分析がしやすいか、言い換えると質の高いデータを取得する道筋を教えてくれるのが実験計画法(DoE: Design of Experiments)です。
実験計画法に従って取得したデータはたとえ数が少なくても、精度の高いモデルを構築することが可能です。
そのため、実験データに対してデータサイエンスを活用したいとき、実験計画法を使ったアプローチは必須といっても過言ではありません。
実験計画法を使ったアプローチについては、ぜひ以下の記事を読んでみてください!
実験計画法は企業研究者に必須の技術 多くの場合、企業研究者の研究開発には目標とする性能や水準があります。 その目標に対してどういうアプローチで研究開発を進めるか、というのは研究者のセンスが問われるところです。 本記事では、複雑な目[…]
【無駄を省く】ドメイン知識の活用
化学的な知見や研究者自身の経験則・勘といった広範な知識を「ドメイン知識」と呼びます。
少数データの分析には、このドメイン知識が大いに活躍します。
ある目的変数を説明するモデルを組もうとしたとき、説明変数の数が増えるほど必要なデータ数は指数関数的に増加します。
したがって少数データの場合、説明変数をできるだけ減らすことが求められます。
研究者のドメイン知識に基づいて、「この変数は影響しないだろう」といった感じで絞り込むことが必要になります。
モデル解釈の重要性
化学では「なぜその要因が効いているのか」を理解し、実験設計や仮説検証に直接活用する必要があります。
一方、よく機械学習が活用される画像認識を例にとると、「なぜその画像を犬と判定できるのか」には興味がなく、とにかく精度よく犬と判定できることが重要です。
一般的に、モデルの精度と解釈性はトレードオフの関係です。
精度を追求して複雑モデル(例えば深層学習や大規模アンサンブル)を用いると、内部挙動がブラックボックス化し、モデルから洞察を得るのが難しくなります。
そのため、解釈性を保ちつつ、ある程度の精度も欲しい、となったときに使える手法は限られてきます。
もちろん目的によりますが、化学分野でよく使われる手法は重回帰やPCR、PLSといったものになります。
各手法の特徴をよく理解して、使い分けることが重要です。
おわりに
本記事では、化学研究にデータサイエンスを活用する上で直面する化学特有のデータ特性と、それに対応するための戦略について解説しました。
「データサイエンスには大量のデータが必要」というイメージがあるかもしれませんが、化学分野では少数データ、測定誤差、メタデータ管理といった課題を理解し、適切な戦略をとることで、十分に活用できます。
特に、実験計画法による質の高いデータ取得と、研究者の皆さんのドメイン知識の活用は、少数データを扱う上で不可欠です。
また化学研究においては、単に予測精度だけでなく、「なぜその結果が得られたのか」というモデルの解釈性も非常に重要です。
これらの点を踏まえ、目的に合った手法を選択することが、データサイエンスを最大限に活かす鍵となります。
データサイエンスは、化学研究の可能性を広げる強力なツールです。
この記事が、皆さんの学習の一助となれば幸いです。