この記事からわかること
- 統計学を有機化学に利用した例
- 統計検定2級の合格方法
「データサイエンス」や「AI」という言葉が、化学業界でも流行しています。
化学メーカー研究職として働く私(@okamotobiblio)も、関連する話題をよく聞くようになりました。
私は有機合成を専門にしており、今まで仕事で統計的な手法は使ったことがありません。
一方で、今後はデータサイエンスが有機化学分野でも必須スキルになるのではないかと予想しています。
実際、多くの化学企業が「データ人材」を採用していることがニュースになっています。
データサイエンスの学問的基礎は、ズバリ統計学です。
しかし、私は統計学を大学でも企業でも学んだことがありませんでした。
統計学を身に着ける必要があると考え、統計検定2級を受験し、無事合格することができました。
統計検定の勉強ととおして統計学の基礎が身についたため、現在は有機化学の実務で統計学、データサイエンスを導入するために奮闘しています。
この記事では、化学系の方を対象に、有機化学でのデータサイエンスの応用例と、私が統計検定2級の合格した方法を解説します。
この記事を読むことで、有機化学分野の方も統計学を学ぶことの重要性がわかるだけでなく、統計検定2級合格に近づくことができます。
目次
なぜ化学者がデータサイエンスを学ぶのか
化学メーカーの社員が、AIやデータサイエンスの技術をなぜ学ぶ必要があるのでしょうか。
それはデータサイエンスは効率的に素材などの製品を開発、製造するために利用できるためです。
例えば、AIやデータサイエンス人材を、多くの化学メーカーが採用しており、実務に生かす試みが行われています。
参考
- 三菱ケミHD、データ解析人材を育成 化学部門で1000人に (2020年4月8日 日経新聞)
- MIで先陣を切る住友化学、材料開発で驚きの効率化 (2020年8月7日 日経クロステック)
- 三井化学と日立が材料開発を高速化するMI技術の実用化に向けた実証試験を開始 (2021年6月28日 三井化学ニュースリリース)
大手化学メーカーが、こぞってデータを利用した研究開発を行っていることがわかります。
有機合成分野では、主に2つの応用例が知られています。
ポイント
- 材料設計に使う
- プロセス化学で使う
材料開発に使う
AI技術を使うことで、目的の機能を持つ素材を効率的に開発することができます。
例えば素材開発の分野では、「MI」という言葉が近年広く使われるようになりました。
先ほど紹介した3番目の記事にも登場する「MI」とは、「マテリアルズ・インフォマティクス」の略であり、統計的な手法を用いて素材開発をする情報技術の一分野です。
従来の素材開発は、希望の機能を出す実験条件を見つけるために、研究者のノウハウや勘に頼ったり、実験数を増やすことで対処していました。
一方で「MI」では統計学を利用することで、最適な条件を見つけ出します。
過去の大量のデータを利用することで、希望の機能を生み出す実験条件をAIが導き出してくれるのです。
実験数を抑えることができるので、効率が上がりますし、従来では思いつかなかった条件が提案されることもあります。
また、医薬品開発の分野でも同様の手法が使われています。
過去のデータをもとに、薬になりそうな化合物の構造を、AIが提案してくれるのです。
データサイエンスを利用することで、研究開発の質を高まることを、化学メーカーは期待しています。
プロセス化学で使う
材料開発だけでなく、反応開発にもデータサイエンスは利用されています。
例えば以下の有機合成に関わる論文では、実験計画法という統計学的手法が用いられています。
統計学的に効率的にパラメータを変化させることで、高収率で目的物を得る条件が導かれているのです。
例えば、ある反応の収率を向上させることを考えます。
この反応の収率は、関数 y=f(x)という数式で表されていると仮定するのです。
つまり、
y:収率
x:反応条件
f:反応条件から収率を計算する関数
を表します。
反応条件xを変化させて実験を行い、得られた収率yを求めることで、関数fを統計学的方法で導くということができます。
この手法により、ある系の最適な反応条件を導き出すことができます。
この統計学的方法を実践することで、再現良く実験するための条件や、副生成物を減らす実験条件などを導くことができます。
プロセス化学に関わっている私は、この方法を理解したい、実践したいと考え、統計学を学ぶ必要性を感じました。
統計検定2級を受験しよう
私は理学部化学科の出身ですが、大学の授業で統計学を系統的に習ってはいません。
統計学を学ぶと言っても、何から手を付けたら良いのか、さっぱりわかりませんでした
そこで実践したのが、統計検定2級を受験することでした。
統計検定を学ぶことがおススメな理由
統計検定は、統計的な手法を用いて問題解決をすることができるかを問われる試験です。
特に2級は、大学教養課程の統計学を扱うことができるかを認定しています。
ケミストがデータサイエンスを学ぶために統計検定2級を受験するメリットは、2つあります。
ポイント
- 検定試験なのでモチベーションを保ちやすい
- 入り口として学ぶのに丁度良いレベル
検定試験なのでモチベーションを保ちやすい
学習意欲を維持できることが、統計検定を目標に勉強することのメリットです。
統計学は様々なテキストがあり、自主的に勉強する環境は整っています。
一方で、すぐに使わない知識の勉強は、どうしても後回しになりがちです。
私のように必ずしも職場ですぐに統計学が必要ではない人が、将来のために統計学を学ぶのであれば、モチベーション維持が課題になります。
特に有機化学を専門とする私たちは、数式の処理が必要な統計学を敬遠してしまいます。
統計検定というテストを利用することで、勉強への意欲を保つことができるのです。
また、統計検定2級はCBT方式で、全国の会場から1年中受験可能です。
受験のしやすさの観点からも、統計検定2級はおススメです。
入り口として学ぶのに丁度良いレベル
私はほとんど統計学の知識を使わずに仕事をしています。
有機化学を専門とする人は、平均や分散などをほとんど使わずに仕事をしている人も多いのではないでしょうか。
統計検定2級は、学部2年生程度までの知識を求める試験であり、統計学初学者であるケミストにとっても、取り組みやすい難易度となっています。
勉強初期は確かに難しさを感じましたが、絶対に理解できないという内容では決してありませんでした。
また、実務に使えないというわけでは決してなく、実験計画法や母平均の推定など、プロセス化学に応用するため必要な知識を身に着けることができる内容です。
将来、実務でデータサイエンスを取り組みたいと考えている化学者が取り組むのに適切な難易度が、2級なのです。
統計検定2級に合格した勉強方法
私の受験当時の統計学の知識は、分散の意味や計算方法は知っているけど、それ以上のことはわからない、という程度でした。
ほぼ初学者の状態でしたが、勉強から約1ヵ月で合格できましたので、その勉強法を紹介します。
ちなみに試験成績は70点でした(1変数・2変数記述統計分野:100%、データ収集・確率・分布の分野75%、推定・検定・線形モデルの分野:48%)。
勉強に使用した書籍は以下の2冊です。
- 統計検定2級 公式問題集
- 完全独習 統計学入門
統計検定2級 公式問題集
試験対策の王道である「過去問を繰り返し解く」という戦略で勉強しました。
1か月の間に過去問を6周しています。
統計検定の過去問の購入は必須です。
ネット上に優れた統計学の解説サイトが多くあるので、過去問だけでも合格は可能だと思います。
完全独習 統計学入門
過去問を解いた際、「検定と推定」の内容がほぼ理解できなかったため、こちらのテキストを利用しました。
この本は、統計学初心者に非常にわかりやすく概念を説明しており、この本が無ければ私は合格していなかったかもしれません。
一方で統計学的には、正確でない記述がある(理解を優先していると書籍内にも書かれている)ため、過去問を解いて理解を深める必要はある点は注意です。
具体的な勉強方法
私は1か月の勉強期間で、統計検定2級に合格することができました。
週ごとに行った勉強を解説します。
第1週
まずは過去問を解いてみました。
解くと言っても公式も何も知らないので、すぐに解答を読んで進めました。
作業としては「問題を解く」ではなく、「解説を読む」という表現の方が正しいです。
確率に関する問題や、統計学的手法に関する問題は理解できましたが、検定・推定などは全く太刀打ちできませんでした。
とりあえず6回分を解きましたが(解説を読んだだけ)、理解が乏しいことを実感し、2週目から「入門統計学」を読むことにしました。
最初から過去問の勉強から始めたことは、苦痛を伴いましたが、どんな問題が出るかを初期から理解できたという点ではメリットの方が大きかったと思います。
統計学初心者は苦しいとは思いますが、まずは過去問を解く、解説を読むことをおススメします。
第2週
「完全独習 統計学入門」を読みました。
統計学の入門知識を補強できました。
「なぜt分布というものを考える必要があるのか?」など、過去問1回目ではわからなかったことが、「完全独習 統計学入門」で理解できました。
また、移動中にはAudibleで「完全独習 統計学入門」の復習をしました。
Audibleは、Amazonが提供するサービスです。
書籍を音声で読み上げてくれるため、出勤中にも復習をすることができます。
入会初月は無料で1冊プレゼントをしてくれますので、統計検定受験に合わせて試しに申し込んでみるのはおススメです。
私は読書が趣味なので、継続して契約しています。
第3週
過去問の復習をしました。
この時点では、まだ理解できていないことが多く、本当に合格できるか不安でしたが、着実に成長している実感もありました。
理解できていない概念が登場した場合は、「入門統計学」を読み返すか、インターネットで検索しました。
「統計学の時間」という統計学を学ぶための有名なサイトがあります。
また、公式を覚えていないために解けない問題が多いことに気づき、公式の暗記をしたのも第3週です。
3週間終了時点で、過去問を合計で3周(まだ解説を読むことがメイン)しました。
第4週
前週までは、わからなくてすぐに解説を読んでいましたが、紙・鉛筆・電卓を使って解く練習しました。
前週までは合格できるか不安でしたが、この頃には合格できる可能性が高いと思えるようになりました。
とは言え、推定・検定・線形モデルの分野は得点が低いので、この分野の勉強がさらに必要だったという反省はあります。
受験日本番
過去問は、年に2回行われている紙面上の試験内容が掲載されています。
CBT方式は出題形式が異なり、若干の違和感を覚えました。
CBTのための対策は必要ないと思いますが、出題方法が異なることは頭に入れておきましょう。
化学者は統計検定2級を受けてみよう
有機合成化学者が統計学を学ぶメリットと、統計検定2級の勉強方法を解説しました。
統計学を基盤とするデータサイエンスの手法は、化学分野の研究者であっても、今後使う可能性が高いです。
今回解説した統計学2級の勉強法を実践することで、統計学の基礎を身に着けましょう。