要旨
理化学研究所(理研)情報基盤センター バイオインフォマティクス研究開発ユニットの林哲太郎センター研究員、尾崎遼基礎科学特別研究員、二階堂愛ユニットリーダーらの研究チーム※は、これまで検出が難しかった多様なRNA[1]の発現量と完全長を1細胞で計測できる「1細胞完全長トータルRNAシーケンス法『RamDA-seq』[2]」を開発しました。
細胞の多様性は、ゲノム[1]にコードされた数万の遺伝子[1]領域から転写されるRNAの種類や量によって決まります。そのため、一つ一つの細胞の中に存在するRNAの種類と量が分かれば、どの遺伝子がどのくらい働いているかが分かり、細胞や臓器の状態・機能をより深く理解できます。1細胞に含まれるRNAの種類と量を網羅的に計測する技術は、「1細胞RNAシーケンス法(1細胞RNA-seq[3])」と呼ばれます。最近、非ポリA型RNA[4]が細胞分化や疾患に関与することが明らかになり、大きな注目を集めています。しかし、既存の1細胞RNA-seqでは非ポリA型RNAが検出できないため、非ポリA型RNAが細胞の中で機能していたとしても見逃してしまうという問題がありました。加えて、従来法にはRNAの全長が計測できずに途中で欠損する問題もありました。そのため、ゲノムDNAから転写された全てのRNAについて、ポリA型・非ポリA型を問わず、全長を偏りなく計測するために、新しい技術を開発する必要がありました。
今回、研究チームは、林センター研究員が新たに開発した核酸増幅法RT-RamDA法[5]とランダムプライミング法[6]を組み合わせ、「1細胞完全長トータルRNAシーケンス法『RamDA-seq』」を開発しました。従来法との性能比較の結果、RamDA-seqは非ポリA型RNAを含む約2倍の遺伝子種を精度よく検出でき、どんなに長いRNAでもほぼ全長の配列を計測できることを確認しました。また、マウス胚性幹細胞(ES細胞)[7]を用いた検証の結果、従来法では計測できなかったヒストンmRNA、長鎖ノンコーディングRNA(lncRNA)[8]のNeat1、エンハンサーRNA[9]といった非ポリA型RNAの細胞間での変動を計測できました。さらに、30万塩基を超える非常に長い新生RNA[8]を捉えられました。
本成果は今後、細胞分化や臓器・器官発生などの基礎研究から、再生医療における移植細胞の安全性評価、血中循環腫瘍細胞など希少細胞集団の診断マーカーの開発まで、あらゆるライフサイエンスの研究分野の発展に貢献すると期待できます。
本研究は、英国のオンライン科学雑誌『Nature Communications』(2月12日付け)に掲載されました。
本研究は、日本医療研究開発機構(AMED)創薬等ライフサイエンス研究支援基盤事業(PDIS)、科学技術振興機構(JST)およびAMED 再生医療実現拠点ネットワークプログラム、文部科学省科学研究費、日本学術振興会(JSPS)科学研究費の支援を受けて行われました。また、本研究の一部は、JSTのCREST「臓器・組織内未知細胞の命運・機能の1細胞オミクス同時計測」の支援を受けました。
※研究チーム
理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット
センター研究員 林 哲太郎(はやし てつたろう)
基礎科学特別研究員 尾崎 遼 (おざき はるか)
上級センター研究員 笹川 洋平(ささがわ ようへい)
テクニカルスタッフI 梅田 茉奈(うめだ まな)
センター研究員(研究当時) 團野 宏樹(だんの ひろき)
ユニットリーダー 二階堂 愛(にかいどう いとし)(多細胞システム形成研究センター 一細胞オミックス研究ユニット ユニットリーダー)
背景
生命の基本単位である細胞は、同じゲノム配列を持ちながら多様な機能に分化し、私たちの体を構成しています。一つの臓器は複数の細胞種で構成されており、さらに同じ細胞種であっても、一つ一つの細胞に含まれるRNAの種類と量は異なります。このような細胞の多様性は、ゲノムにコードされた数万の遺伝子領域から転写されるRNAが、どのような組み合わせで作られるかによって決まります(図1)。これはRNAそのものや、RNAから翻訳されるタンパク質が、細胞の構造や機能を司るためです。つまり、1細胞ごとにRNAを網羅的に計測することが、その臓器の成り立ちや状態、疾患などを理解する上で非常に重要となります。
これを実現する技術が、「1細胞RNAシーケンス法(1細胞RNA-seq)」です。1細胞RNA-seqでは、RNAをDNAに変換し、ハイスループットDNAシーケンサーによって配列決定することで、一つの細胞に含まれる10ピコグラム(pg、1pgは1兆分の1グラム)という微量のRNAの種類や量を配列情報として網羅的に計測することができます。これまでに、多くの1細胞RNA-seq技術が開発され、発生・幹細胞・がん研究などさまざまな研究現場で活用されてきました。
RNAは、末端にポリA配列を持つポリA型RNAと、ポリA配列を持たない非ポリA型RNAに分けられます(図1)。ポリA型RNAには、タンパク質をコードするメッセンジャーRNA(mRNA)のほとんどが含まれています。一方、非ポリA型RNAには、ヒストンタンパク質をコードするmRNA(ヒストンmRNA)、長鎖ノンコーディングRNA(lncRNA)、新生RNA、環状RNA[8]、エンハンサーRNAなどが含まれており、その多くは機能が分かっていませんでした。しかし近年になり、非ポリA型RNAが細胞分化や疾患、遺伝子発現の制御といった重要な生命現象に関与することが明らかになり、非ポリA型RNAを計測する重要性が高まっています。
また、RNAには数十塩基から数十万塩基までさまざまな長さのものがあります。さらに、スプライシング[10]という過程により、細胞の種類や状態によって同じ遺伝子から長さと配列が異なるRNAが転写されることがあります(図1)。長さと配列が異なるRNAはRNA自体やそこから翻訳されるタンパク質の機能が異なったり、場合によっては疾患の原因となったりすることがあります。このようなRNAを見分けるにはRNAの全長を計測する必要があります。
しかし、既存の1細胞RNA-seqでは、非ポリA型RNAや非常に長いRNAの全長を捉えることができません。原因は1細胞RNA-seqの原理にあります。1細胞RNA-seqでは、RNAをDNAに変換する際に、RNAを鋳型に相補的DNA(cDNA)を合成する逆転写反応[11]を利用します。この逆転写反応の開始には、逆転写プライマーという短いDNA配列が必要で、既存の1細胞RNA-seqではオリゴdTプライマー[12]を用います。オリゴdTプライマーはポリA型RNAと結合しますが、非ポリA型RNAに結合しないため、非ポリA型RNAはcDNAに変換されません。また、オリゴdTプライマーを用いるとRNAの末端からcDNAを合成することになるため、長いRNAや複雑な二次構造を持つRNAは、cDNAの合成が途中で止まってしまい、全長を捉えることができません。さらに、cDNAを増幅させるポリメラーゼ連鎖反応(PCR)[13]は、増幅用共通配列を付加した逆転写プライマーが必須で、かつDNAの長さに依存した増幅バイアスもあるため、感度や再現性が低下することが知られています。
このような技術的制約から、ポリA型・非ポリA型を問わずRNAの全長を偏りなく計測するためには、オリゴdTプライマーにも、PCRによる増幅にも頼らない、全く新しい原理による技術の開発が必要でした。
研究手法と成果
研究チームは、1細胞レベルでポリA型・非ポリA型を問わず、RNAの全長を網羅的に計測できる「1細胞完全長トータルRNAシーケンス法」の開発に取り組みました。具体的には、逆転写反応の際にオリゴdTプライマーではなく、ランダムプライマー[6]を用いるランダムプライミング法を1細胞RNA-seqに応用することを目指しました。そのために、以下の二つの課題を解決しました。
- リボソームRNA(rRNA)[14]の逆転写の抑制
細胞内に存在するRNAの9割以上は計測してもあまり意味のないrRNAです。ランダムプライミング法ではrRNAがcDNAに合成され、他のRNAの情報が失われてしまいます。そこで、rRNAを認識する配列を除いたランダムプライマーである 「not-so-random プライマー(NSRs)」を使用しました。NSRsを用いることで、rRNA由来のcDNA合成を抑えつつ、ポリA型RNAおよび非ポリA型RNAを計測することが可能になりました。
- 逆転写効率の向上
ランダムプライマーに増幅用の共通配列を付加すると、逆転写効率が著しく低下します。これでは、存在量の少ないRNAは捉えることができません。そこで、林センター研究員が開発した新しい核酸増幅法「RT-RamDA法」を用いました。RT-RamDA法は、逆転写反応中にRNAから直接cDNAを増幅できる新しい核酸増幅法です。既存の核酸増幅法はcDNAの増幅の前に複数の反応ステップを経る必要があるため、途中で一部のRNAが失われる問題がありました。しかし、RT-RamDA法は、最初の反応ステップでRNAから直接cDNAを増幅できるため、高効率な逆転写と高感度なcDNA増幅が可能となりました。
このようにRT-RamDA法とNSRsを組み合わせることで、1細胞完全長トータルRNAシーケンシング法である「RamDA-seq(ラムダセック)」を確立しました(図2)。RamDA-seqでは逆転写反応のみで増幅が完了するため、従来法で問題となっていたRNAの捉え漏れやPCRによる増幅バイアスを避けられるとともに、操作が簡便になり試薬コストも削減されました。
RamDA-seqの性能を評価するため、1細胞相当量にあたる10 pg のRNAを用いて、既存の1細胞RNA-seqと比較しました。まず、非ポリA型RNAを含む遺伝子の検出数を比較したところ、RamDA-seqは、既存の1細胞RNA-seqと比べて最も検出できる遺伝子数が多いことが分かりました(図3)。従来法との性能比較の結果、RamDA-seqは非ポリA型RNAを含む約2倍の遺伝子種を精度よく検出できました。また、複数回の独立した実験間での再現性も既存技術よりも優れていました。さらに、RamDA-seqは既存の1細胞RNA-seqに比べて、長鎖のRNAであっても全長を偏りなく計測できることが分かりました。例えば、長さが1万塩基以上という非常に長鎖のRNAにおいて、既存の1細胞RNA-seqでは多くのエキソン(遺伝情報がコードされている部分)が計測できていないのに対し、RamDA-seqでは全てのエキソンが計測できました(図4)。これらの結果から、RamDA-seqがポリA型・非ポリA型を問わずRNAの全長を偏りなく計測できる完全長1細胞トータルRNA-seqであることが確認できました。
続いて、RamDA-seqを用いて、細胞状態の変化に伴う非ポリA型RNAの発現変動の検出を試みました。マウス胚性幹細胞(ES細胞)を細胞分化誘導後に複数の時刻にサンプリングした細胞に対してRamDA-seqを適用し解析した結果、これまでに知られていない新しいRNAを含む458種類の非ポリA型RNAが、細胞分化の進行に伴ってダイナミックに変動していることが分かりました。なかでも、腫瘍抑制などさまざまな機能を持ち、2万塩基以上の長さの非ポリA型lncRNA Neat1の変動を捉えることに成功しました。
次に、RNA生合成の重要な段階であるスプライシングの過程をRamDA-seqで捉えられるかを調べました。スプライシングにおいて転写されたRNA分子からイントロン領域(遺伝情報がコードされていない部分)が切り出されます。スプライシングが完了していない新生RNAは、イントロン領域を含む非ポリA型RNAです。実際、RamDA-seqではイントロン領域由来のRNAが多く計測されており、新生RNAが計測できることが分かりました。さらに、イントロン領域の計測値の分布の形から、多段階スプライシング[10]という特殊なスプライシング機構を1細胞レベルで初めて検出することができました(図5)。
さらに、RamDA-seqでエンハンサーRNAを計測できるかを検証しました。エンハンサーRNAはエンハンサー(遺伝子領域から離れて位置し、遺伝子の転写効率を調節する領域)から転写されるRNAで、その多くが非ポリA型RNAです。エンハンサーRNAはエンハンサーの活性を反映し、また、転写制御に直接関わる例も知られています。多くのエンハンサーRNAは遺伝子アノテーション[15]に含まれていないことから、エンハンサーRNAのカタログを用意して解析しました。その結果、RamDA-seqでエンハンサーRNAが計測できることを確認しました。これは、初めて1細胞RNA-seqでエンハンサーRNAを計測した報告です。さらに、細胞分化の進行に伴って変動する1,338種類のエンハンサーRNAを発見することができました(図6)。
今後の期待
近年、lncRNAやエンハンサーRNAを含む非ポリA型RNAが、細胞分化や疾患に関与することが報告されています。また、RNAのスプライシングは一つの遺伝子から多様なRNAおよびタンパク質を作り出す重要な仕組みであり、スプライシングの異常はがんなど疾患の原因になります(図1)。今回開発したRamDA-seqによって、これらのRNAを1細胞ごとに網羅的に計測できるようなりました。研究チームは、すでにほかの研究機関とRamDA-seqを活用した共同研究を実施しています。その過程で、多様な細胞種・生物種の約1万個の1細胞のシーケンスに成功しています。これらの成果は、今後、細胞分化や臓器・器官発生などの基礎研究から、再生医療における移植細胞の安全性評価、血中循環腫瘍細胞など希少細胞集団の診断マーカーの開発まで、あらゆるライフサイエンスの研究分野の発展に貢献すると期待できます。
現在、ヒトの全細胞種類について網羅的、かつ、1細胞レベルでRNAを計測しデータベース化する国際プロジェクトHuman Cell Atlasが、米国・欧州を中心に開始しています。しかし、このプロジェクトで利用される1細胞RNAシーケンス法は、非ポリA型RNAやRNA完全長配列を捉えられません。RamDA-seq法は、Human Cell Atlasを補完するデータベース作成に貢献することが期待されます。このようなデータベースは、核酸医薬の開発に貢献します。核酸医薬では、対象とする細胞に発現するポリA型・非ポリA型RNAの種類と全長配列の情報が、医薬品の効果や副作用の評価に必須となります。そのため、RamDA-seqは、創薬研究にも貢献すると考えられます。