文を読むAIはウイルスの突然変異を見つけることもできます

by tobiniumu
0 comment


今日Scienceに発表された研究では、Bergerと彼女の同僚は、これらのストランドのいくつかをまとめ、NLPを使用して、ウイルスが人間の免疫系の抗体によって検出されないようにする突然変異を予測します。 基本的な考え方は、免疫系によるウイルスの解釈は、人間による文の解釈に類似しているということです。

「これはきちんとした論文であり、前の仕事の勢いを増しています」と、Salesforceの科学者であるAliMadaniは言います。 NLPを使用してタンパク質配列を予測する

バーガーのチームは、文法と意味論(または意味)という2つの異なる言語概念を使用しています。 ウイルスの遺伝的または進化的適応度(宿主への感染がどれだけ優れているかなどの特性)は、文法的な正確さの観点から解釈できます。 成功した感染性ウイルスは文法的に正しいです。 失敗したものはそうではありません。

同様に、ウイルスの突然変異はセマンティクスの観点から解釈できます。 ウイルスをその環境内のものとは異なって見えるようにする突然変異(特定の抗体からウイルスを見えなくする表面タンパク質の変化など)は、その意味を変えました。 変異が異なるウイルスは意味が異なる可能性があり、意味が異なるウイルスはそれを読み取るために異なる抗体を必要とする場合があります。

これらの特性をモデル化するために、研究者はLTSMを使用しました。これは、GPT-3などの大規模な言語モデルで使用されるトランスベースのニューラルネットワークよりも前のタイプのニューラルネットワークです。 これらの古いネットワークは、トランスフォーマーよりもはるかに少ないデータでトレーニングでき、それでも多くのアプリケーションで良好に機能します。

数百万の文の代わりに、3つの異なるウイルスから取得した数千の遺伝子配列でNLPモデルをトレーニングしました:インフルエンザ株では45,000の固有の配列、HIV株では60,000、Sars-Cov株では3,000〜4,000 -2、covid-19を引き起こすウイルス。 「監視が少なかったため、コロナウイルスのデータは少なくなりました」と、モデルを作成したMITの大学院生であるBrianHieは言います。

NLPモデルは、類似した意味を持つ単語が異なる意味を持つ単語よりも接近するように、数学空間で単語をエンコードすることによって機能します。 これは埋め込みとして知られています。 ウイルスの場合、遺伝子配列の埋め込みにより、変異の類似性に応じてウイルスがグループ化されました。 これにより、特定の株で他の株よりも可能性が高い変異を簡単に予測できます。

このアプローチの全体的な目的は、ウイルスの感染性を低下させることなく免疫系から逃れる可能性のある突然変異、つまり、文法的に不正確にすることなくウイルスの意味を変える突然変異を特定することです。 ツールをテストするために、チームは機械学習モデルによって行われた予測を評価するための共通の指標を使用しました。この指標は、0.5(偶然に勝るものはありません)から1(完璧)までのスケールで精度を評価します。 この場合、彼らはツールによって特定された上位の突然変異を取得し、ラボで実際のウイルスを使用して、それらのうちのいくつが実際のエスケープ突然変異であるかを確認しました。 彼らの結果は、HIVの0.69から1つのコロナウイルス株の0.85の範囲でした。 これは、他の最先端モデルの結果よりも優れていると彼らは言います。

事前警告

どのような突然変異が起こるかを知ることで、病院や公衆衛生当局が事前に計画を立てやすくなる可能性があります。 たとえば、昨年からインフルエンザ株の意味がどれだけ変わったかをモデルに尋ねると、人々がすでに開発した抗体が今年どれだけうまく機能するかを知ることができます。

チームは、いわゆるコロナウイルスの新しい亜種でモデルを実行していると言います 英国の突然変異、デンマークのミンク突然変異、および南アフリカ、シンガポール、マレーシアからの変異。 彼らは、ほとんどすべての人に免疫回避の可能性が高いことを発見しましたが、これはまだ実際にはテストされていません。 1つの例外は、いわゆる南アフリカの亜種です。これは、ワクチンを逃れることができるかもしれないという恐れを引き起こしましたが、ツールによってフラグが立てられませんでした。 彼らはそれがなぜであるかを理解しようとしています。

NLPを使用すると、遅いプロセスが加速します。 以前は、病院のcovid-19患者から採取したウイルスのゲノムを配列決定し、その変異を再現してラボで研究することができました。 しかし、それには数週間かかる可能性があると、MITの生物学者でプロジェクトにも取り組んでいるブライアンブライソンは言います。 NLPモデルは、潜在的な突然変異をすぐに予測します。これにより、ラボの作業に集中し、スピードを上げることができます。

「これに取り組むのは驚くべき時期です」とブライソンは言います。 新しいウイルスシーケンスが毎週出てきます。 「モデルを同時に更新し、実験室でテストするために実行するのはワイルドです。 これは最高の計算生物学です」と彼は言います。

しかし、それはほんの始まりでもあります。 遺伝子変異を意味の変化として扱うことは、生物学全体でさまざまな方法で適用できます。 「良い例えは大いに役立つ可能性があります」とBrysonは言います。

たとえば、Hieは、彼らのアプローチを薬剤耐性に適用できると考えています。 「化学療法に対する耐性を獲得する癌タンパク質、または抗生物質に対する耐性を獲得する細菌タンパク質について考えてみてください」と彼は言います。 これらの突然変異は、意味の変化と考えることができます。「言語モデルの解釈を開始できる創造的な方法はたくさんあります。」

「合成生物学は革命の最前線にあると思います」とマダニは言います。 「私たちは今、単に大量のデータを収集することから、それを深く理解する方法を学ぶことに移行しています。」

研究者たちは、NLPの進歩を監視し、それらを活用するために言語と生物学の新しい類似点を考えています。 しかし、Bryson、Berger、およびHieは、生物学の概念に触発された新しいNLPアルゴリズムを使用して、このクロスオーバーが双方向に進む可能性があると考えています。 「生物学には独自の言語があります」とBergerは言います。



Source link

You may also like

Leave a Comment