非線形な関係をモデリングするには
化学分野で使用頻度の高いモデルである「線形重回帰」は、基本的に「まっすぐな関係」、つまり直線や平面しか表現できません。
しかし、実際の現象は「まっすぐな関係」だけでなく、「曲がった関係」を導入しないと説明できないことも多いです。
今回は「曲がった関係」、つまり非線形な関係をどのようにモデリングするかについて解説します。
最も簡単な変数変換や、交互作用や多項式による線形重回帰の拡張(応答曲面)、さらにロジスティック回帰やガウス過程回帰といった別のモデルにも簡略に触れます。
線形重回帰の基本を理解していることを前提としておりますので、まだの方は以下の記事を読んでみてください。
「線形回帰」とは?~線形単回帰と線形重回帰~ 実験計画法を用いたデータ駆動型の研究開発は、企業研究者が最短で目標達成するのに必要なスキルです。 データ駆動型の研究プロセスの中で、花形とも言える「モデリング」には様々な手法があります。 […]
非線形性の導入戦略
非線形性を導入する方法はいくつかあります。
ここでは代表的な戦略を以下図の通りまとめます。
それぞれについて、詳しく解説していきます。
変数変換
変数変換は最も簡単に非線形性を導入する手法です。
特徴量エンジニアリング、なんてカッコいい言い方もします。
ただし、ここで扱う変数変換は特徴量エンジニアリングのごく一部になります。
変数変換は目的変数あるいは説明変数を逆数や対数で変換して、非線形な関係を線形に近づけて線形重回帰でも表現できるようにする手法です。
目的変数と各説明変数の2次元プロットを見たとき、非線形な関係が観測された場合に有効です。
化学では、目的変数が指数関数的に変化していたり、どこかで頭打ちになる挙動を示すことが多いです。
化学でよく用いる変換について解説していきます。
逆数変換
逆数変換は、目的変数が漸近的に一定の値に近づく場合や、説明変数と逆比例の関係にある場合によく用いられます。
変換前と変換後のx-yプロットです。
逆数変換によって、非線形な関係が線形に代わっていることが確認できます。
目的変数の変換が有効なケースと、説明変数の変換が有効なケースがあります。
代表的な例としては、酵素反応における反応速度と基質濃度の関係や、ランミュア吸着等温式の吸着量 と平衡濃度 の関係などに、逆数変換が非常に有効です。
対数変換
対数変換は、目的変数が指数関数的に変化する場合によく用いられます。
とくに、値の範囲が非常に広い場合や、変化率に注目したい場合に有効です。
変換前と変換後のx-yプロットです。
対数変換によって、非線形な関係が線形に代わっていることが確認できます。
例えば、多くの化学反応で反応物濃度は時間とともに指数関数的に減少します。
こういったものを目的変数とするときに有効な変換になります。
変数変換の注意点
変数変換を行う際に注意しなければならないことをまとめます。
一つは変換の根拠をしっかり考えることです。
「なぜその変換が適しているのか」を化学的な背景や現象のメカニズムを結びつけて考えると、より説得力のあるモデルになります。
次に変換を行うと解釈が難しくなることも留意してください。
変換を行ってから構築したモデルでは、係数の解釈が直感的に分かりにくくなることがあります。
説明変数が目的変数にどのように作用しているかを理解することは化学において重要なプロセスなので、変換を行った場合はモデルを注意深く観察するようにしましょう。
線形重回帰の拡張
線形重回帰分析は、目的変数が複数の説明変数の線形結合として表現(加算・減算・定数倍だけで表現)されるモデルを構築します。
下記式のように、各説明変数の1次項のみの線形結合でyが表現される場合、「まっすぐな関係」しか説明できません。
では、線形重回帰を拡張して「曲がった関係(=非線形な関係)」を説明するとはどういうことでしょうか。
応答曲面法
線形重回帰を使って非線形な関係を表現するためには、各説明変数の1次項(=主効果)とは別の説明変数を加えます。
具体的には、説明変数の2次や3次といった多項式項や、説明変数同士の積である交互作用項を加えることで、非線形性を導入できます。
説明変数が2つの場合、式で書くとこんな感じです。
説明変数が2つの場合、主効果だけだと平面です。
主効果に交互作用項を加えると平面が歪んだ曲面になり、非線形性を導入されたのが分かります。
主効果に多項式項を加えると凹凸を持った曲面になり、こちらも非線形性が導入されています。
このように線形重回帰に主効果以外の項を加えることで、予測値グラフが曲面を形成するため、「応答曲面」と呼ばれます。
応答曲面法は非常によく使うモデルなので、別記事でさらに詳しく解説予定です。
多項式、交互作用の意味合い
応答曲面法の線形重回帰で表されたモデル式のそれぞれ項はどんな意味合いを持つのでしょうか。
簡単に解説していきます。
まず、主効果は「変数xが1変わったとき、目的変数yがどのくらい変わるか」ですね。
これは簡単。
多項式
次に多項式項ですが、2次の場合は2次関数になるので極大あるいは極小を持つのが特徴です。
化学分野での材料開発の文脈では、説明変数の2次項が目的変数に効く場合、多くのケースで「最適点がある」ことを意味します。
2次項を導入した時の上の3Dプロットからも、イメージしやすいと思います。
交互作用
交互作用は少し難しいです。
これは「ある説明変数の値によって、もう一つのの説明変数の効き方が変わる」という意味合いになります。
言葉だと分かりづらいので具体例で説明します。
例えば、ある生成物の収率を目的変数、温度と反応時間を説明変数としたときの関係です。
この反応では、高温で副生成物の生成速度も上がってしまうと仮定します。
すると、収率を上げるには「温度が高いと反応時間を短く」「温度が低いと反応時間を長く」するのが良いと考えられます。
このように、温度によって反応時間の収率への効き方が変わるケースでは交互作用項を入れるとうまく説明できるのです。
相乗効果も交互作用によって説明されます。
例えば、触媒量と反応時間の関係。
触媒が増えると反応時間が短くなる場合、触媒量によって反応時間の収率への効き方が変わっています。
以上の説明を図示するとこんな感じ。どうでしょう、イメージ湧いたのではないでしょうか。
様々なモデル
ここまで変数変換や線形重回帰の拡張など、比較的簡便な非線形性の表現方法を解説してきました。
しかし、これらの手法ではどうしても表現できないデータや現象も存在します。
そんな時は、違う「型」のモデルを使うことで解決を図ります。
ここではロジスティック回帰とガウス過程回帰という、化学でよく用いられるモデルについて簡単に紹介します。
ロジスティック回帰
これまで扱ってきた線形回帰は連続的な数値を予測する強力なツールです。
しかし、化学の現場では「配合物が安定か否か」「品質はクリアしているか否か」「ある材料が耐久性を持つか否か」といった、二値(はい/いいえ)の結果を予測したい場面があります。
こんなときに威力を発揮するのが、ロジスティック回帰です。
二値問題の場合、図のように線形回帰ではうまくフィッティングできません。
そこでロジスティック回帰では、線形回帰のように直接 を予測するのではなく、ある事象が起こる確率 を予測します。
そして、この確率 を0から1の間に収めるために、シグモイド関数(またはロジスティック関数)と呼ばれる特別な関数を使います。
それによって、二値問題のような離散値データに対してもフィッティングできます。
詳説は別記事でまとめる予定です。
ガウス過程回帰
線形回帰やロジスティック回帰は、説明変数と目的変数の間に特定の関数形を仮定し、その関数をデータにフィットさせることで予測を行いました。
しかし、実際の化学実験データは、常に不確かさやばらつきを伴います。
また、特に複雑な現象では、どんな関数形が最も適切なのか、事前に判断するのが難しいこともあります。
このような場合に強力なツールとなるのが、ガウス過程回帰(Gaussian Process Regression, GPR)です。
ガウス過程回帰は、データに単一の関数を当てはめるのではなく、「予測される関数そのものがどのように分布しているか」をモデリングします。
そうすることで、ぐねぐね曲がった関係を表現できます。
さらに、予測値だけでなく、その予測の不確かさの範囲まで教えてくれる点が大きな特徴になります。
こちらも詳説は別記事でまとめる予定です。
おわりに
今回、「まっすぐな関係=線形」から「曲がった関係=非線形」へ発展させる方法についてまとめました。
基本戦略は「変数を変換して線形に変えてしまう」「線形回帰の応答曲面モデルを使う」「線形回帰以外の非線形モデルを使う」の3つだと説明しました。
これらの基本概念や特徴、使いどころをしっかりと理解しておきましょう。
実務ではデータの特徴を見ながら、まずは単純な方法から試していくことをお勧めします。
応答曲面モデルやロジスティック回帰、ガウス過程回帰の詳説記事は今後まとめていく予定ですのでお楽しみに!
関連記事
実験計画法は企業研究者に必須の技術 多くの場合、企業研究者の研究開発には目標とする性能や水準があります。 その目標に対してどういうアプローチで研究開発を進めるか、というのは研究者のセンスが問われるところです。 本記事では、複雑な目[…]
化学にデータサイエンスって使えるの? データサイエンス、あるいは機械学習と聞いて皆さんは何を思い浮かべますか? 多くの方は「ビッグデータをはじめとした情報量の多いデータを分析・解析する分野」というイメージを持たれているのではないでしょう[…]