AI創薬の先駆者【Watson for Drug Discovery】

こんにちは、Moogleです。

最近はAIという単語を色々な場面で聞くことになります。AIで顧客対応、AIで自動運転、AIで創薬…人工知能がなんでも出来るような印象です。

そのAIの口火を切った1つが、IBMのWatsonだと思います。(厳密にWatsonが、最近よく使われているAI:機械学習/深層学習なのかというのは横に置いておいて)

Watsonの機能を創薬研究に活かしたWatson for drug discoveryが提供されていましたが、最近、Watson for drug discoveryの提供を中止するというニュースが報道されました。

IBM is ending sales of Watson for Drug Discovery

IBM is stopping the development and sales of the product, which uses Watson AI to help pharmaceutical companies find new drugs, because it wasn’t yielding large enough financial returns, according to a STAT report.

Watson for drug discoveryは個人的にお試ししたことがあり馴染みが少しありましたのでこのニュースに”少し”驚きました。今回は私の記憶が薄れていく前に、今後は過去の「AI遺産」と呼ばれるかもしれない”Watson for drug discovery”について記事にします。本記事は個人的な見解ですのでご了承ください。

IBM Watson

クイズ番組に挑戦したIBM Watson

ワトソンは、質問応答技術の更なる向上を目的に、自然言語処理技術をさらに進化させることを目的に設計されました。「ジョパディ!」で出題されるバラエティーに富んだ複雑な問題に対して、100万冊の本を読むのに相当する自然言語で書かれた情報の断片を分析し、短時間で最も適した解答を導き出す分析コンピューティング・システムです。

本リンクにも書いているとおり、Watsonは自然言語処理のシステムです。膨大な文書を読み込むことで、文書を理解するシステム。

日本一番高い山は?」という質問に際し、「富士山日本一番高い山です」という読み込み済みの文書から、富士山を回答として出してくるわけです。

最近のAI典型例として、「猫」の画像を見て学習し、画像から「猫」を見つけ出すというお話があります。

Watsonはざっくり言うところで「文書」を読み込んで「単語」間の関係性を示す「辞書(コーパス)」を作ります。そのため何らかの言語で書かれた文書を扱います。IBMは、この辞書を作る工程についてAIと呼んでいます。

さて、Watsonは文書を読み込んで単語間の関係性を理解するものですので、

「読み込む文書をライフサイエンスの論文にしてみた」

のがWatson for drug discoveryです(すごくザックリ)。

Watson for drug discovery

論文を大量に読み込んでいるWatson for drug discovery。大量に読み込んだ情報から、新しい関係性を見つけ出すわけです。

平たく言うと、

  • ある疾患に関係する新しい遺伝子を見つける
  • 新しい遺伝子と遺伝子の相互関係を見出す
  • ある細胞現象に関係する新しい遺伝子を見つける

などなど、誰も知らない新しいことを見つけられますよ!という機能を売りに提供されていました。

例えば。
As a result, gene A increased the expression of gene B, thus inducing cell X growth.
という論文と、
Cell X was confirmed to be responsible for Y Cancer.
という2つの論文をWatsonが読み込むと、

  • Gene A → Gene B → Cell X
  • Cell XとY cancerが関係

という辞書がWatson内に出来あがります。

Watson for drug discoveryでGene Aを調べると、辞書内で出てきた遺伝子や疾病のネットワークが表示され、論文を読んでいなくてもGene AとY cancerの繋がりを理解できるのです。シグナルパスウェイマップも、遺伝子や細胞現象との関与を一覧できますが、Watson for drug discoveryでは、Watson内で解析された「単語」間のネットワークが表示されます。

つまり、興味ある遺伝子についてすべての論文を読まずとも、その遺伝子について論じられている論文をすべて読み込んでくれているWatsonが、その遺伝子に関係する遺伝子や疾患名、細胞現象名との関係をネットワーク図で出してくれます。また、各単語間に出てくる動詞なども判別しているので、影響の方向性を矢印で表示されます。

Watson for drug discoveryで表示される、Watson辞書内での遺伝子ネットワーク図。 IBM HPより。

論文にある単語間のネットワークを示す主な機能の他に、更に”推測機能”も有しています。たとえば、複数の遺伝子をWatsonに投げかけます。そうすると、その遺伝子群に関係しそうな遺伝子を提示してくれます。おそらく、投げかけた「遺伝子名」の周辺で使われている単語が似ている「遺伝子名」を選び出しているのだと思いますが、何回説明を聞いても正確な原理は分かりませんでした。

この機能を使うと例えばアルツハイマー病関係遺伝子群に関係しそうな新しい遺伝子をいきなり見つけることができるのです。ただし、選び出された遺伝子がなぜ選ばれたのか?ここはよく理解できず結局は自分たちで疾患と遺伝子の関係を調べなおしていく作業が発生します(Watsonにユーザーが使われるという…)

なぜWatson for drug discoveryは終わったのだろう?

Watson for drug discoveryの欠点

これは使う人それぞれで挙げる「欠点」が異なります。大体のユーザーがアグリーしそうな欠点として、下記のような点を考えました。

  1. 遺伝子名等のミスアノテーション
  2. 基本プランではOpen access誌のみ
  3. そもそも論文の結果が真なのか

1:ミスアノテーション

遺伝子名は、Gene symbol以外にも沢山呼び方があることがあります。例えば、パーキンソン病で有名なαシヌクレイン(Gene symbol: SNCA)を見てみます。NCBI Geneを見てみると、PD1; NACP; PARK1; PARK4が別名で挙げられています。

さて、勘が優れた方はもうお分かりのはずです。Watson for drug discoveryの手にかかれば、がん免疫で有名になったPD1の論文が、パーキンソン病の論文としても表示されることを。

そうなのです。Watsonは「文」を見ているのですが「文脈」を見てくれませんでした(注:私が使わせていただいた時)。そこで、え!この遺伝子がパーキンソン病と?!みたいなミスリードがあり、調べてすぐ落胆する。そういうエラーがありました。

これを一つ一つヒトの力を借りながら改善してたようです。

2:論文の偏り

すぐご理解頂けるように、基本的には著作権が問題のないオープンアクセス誌に限られます。もちろん、お金を払うことで自社・自組織が契約している論文も対象にできるのですが、ただでさえ高い使用料に…なかなかこの判断は出来ないでしょう。また、出版社がどれほど協力してくれるかということも課題になりそうです。

論文の偏りは少し使った程度では問題視しなかったですが、いわゆる有名誌さえも入ってこないので、もしかしたら、トップジャーナルを賑わすような旬の研究には使いづらいのかもしれないですね。

3:論文の正確性

「研究 再現性 の危機」 – Nature、1500人を調査

『ネイチャー』誌はこの再現性という問題について、オンライン・アンケートを実施しました。回答者は1576人。その結果は同誌5月25日付の記事で公表されました。「研究者の70%以上がほかの研究者の実験を再現しようと試みて失敗しており、半分以上が自分自身の実験を再現することに失敗している」

読み込まれる論文は、特にキュレーションはされてませんので、Watsonの辞書に使われている文献の質は一切確認されておりません。(correction, 撤回はどう対応されてたんだろう..)

なので、この疾患とこの遺伝子にこんな繋がりが!なんて興奮して論文を見に行くと、10年近く前の1報だけ。なんてこともあり得るわけです。かといって、何個も論文が出ているものだと皆が知っている有名な関係性ですし、なかなか新しい関係が安易に見つかるはずはないわけです。

Watson for drug discoveryの業績

あとにも先にも、下記の論文がよく説明に使われているように思います。

Artificial intelligence in neurodegenerative disease research: use of IBM Watson to identify additional RNA-binding proteins altered in amyotrophic lateral sclerosis

ALS:筋萎縮性側索硬化症に関係する遺伝子の探索にWatsonを活用した。という例です。

ALSにRNA binding proteinの1つであるTDP43が関係していることは広く知られていますが、これをヒントに、ALSに関係するRNA binding proteinをWatsonで見つけてきたというお話です。

Watson視点で見ると画期的!といえます。一方で批判的に見ると、単に疾患の組織サンプルで変動する遺伝子を見つけてきただけなので、もはや網羅的解析で実験的に見つけられるレベルの話ではないかと思ってしまいます。しかも変動するだけなので、原因の遺伝子かどうかも分かりません。

他にもWatson for drug discovery関係で数報拝見した覚えがありますが、どれもそれほど…というものでした(IBMさん、すみません)。

個人的に思う撤退の理由

Watson for drug discoveryのサービス提供および開発が停止するとのことですが、個人的に思う理由を書きに挙げます。私は全くAI素人なのでこの領域の理解が薄いことをご了承ください。

  1. 維持にヒトの手がかかり過ぎた
    アノテーションミスなどの改善作業・メンテナンスに必要以上にヒトの手がかかり過ぎたのではないかと思いました(このAI全盛期に!)。ライフサイエンス系の論文は固有の略語なども多くあり、一筋縄ではいかなかったんでしょう。また、論文のキュレーションはなく、さらに文脈の理解も弱い(ない?)ので、ユーザーが巡り合うトラブル時の対応が後手後手の状況で、論文数もうなぎ登りのご時世、収集がつかなくなったのだと思います。
  2. ユーザーが期待するほどではなかった
    私も一通りの機能を使っただけですが、論文検索ソフトとしては優秀(オープンアクセス誌に限る)なのは理解しましたが、それ以上ではなかったです。しかも有名誌は全然拾えない。私はてっきり遺伝子発現の変動値などもテーブルから読み込んでくれると思ったのですが、そんなことは全く無かったです。本国のエンジニアにも聞きましたが、「トライしてみたい」程度の意気込みをお答えいただいた程度でした。
  3. ユーザーが増えなかった
    最終的にはここに着地するのだと思います。ユーザー企業が増えなかったのでしょう。ライセンス料も結構値段がします。ベーシックなオープンアクセス誌についての機能だけはフリーで公開してしまってユーザーを獲得する作戦にでてもよかったのかな、と思います。そして出版社も巻き込んだサービス展開が必要だったのでしょう。いきなり高額なライセンス料を払う勇気がある会社は限られたのでしょう。日本でも導入している会社は何社か聞いてことありますが、どれほど活用されていたのでしょうか。

まとめ

ユーザーとしては、論文を読まずに色々な遺伝子や疾患の関係性を理解できるソフトウェアはとてもありがたい存在です。ただ、利用料が支払うに値しないと判断された会社が多かったのだろうと想像します。

論文の価値は、文章だけではなく、FigureやTable、そしてsupplementary/supporting informationも重要です。そこを全くケアされないソフトウェアというのもどうなんだ。と私は思いました。

これからは、大量に出てくる網羅的解析(e.g. RNAseq, single cell analysis…)の結果の解釈や解析の方向性について研究者の思考を補助してくれる深層学習のシステムはAI創薬の1つとなってくるかもしれませんね。

ちなみに、Watson oncologyなどほかのhealthcare関係のは凄い!と思ったサービスもありますが、それは機会があれば後日に……。