RNA-seq解析入門①:解析の全体フローとツール選びの考え方

この記事では、RNA-seq解析の全体的な流れと、各ステップで登場するツールの概要を紹介します。「どのツールを選べばいいかわからない」という初学者の疑問に答えるため、ツール選びの3つの観点と、最初に試すべき基本セットを解説します。またRNA-seqの解析工程はChIP-seqやATAC-seqといった他のシーケンス解析手法とも共通する部分が多く、ここで学ぶ考え方はバイオインフォマティクス解析全般の基礎となります。

この連載について

この記事はRNA-seq解析入門シリーズの第1回です。次回以降は各ステップを深掘りし、ツールの具体的な使い方と選び方を解説していきます。

記事内容
①(本記事)全体フローとツール選びの考え方
クオリティチェック編
トリミング編
マッピング編
カウント編
発現変動解析編

RNA-seqとは?

RNA-seq(RNA sequencing)とは、細胞の中でどの遺伝子がどのくらい活発に働いているかを網羅的に調べる技術です。

たとえば「がん細胞と正常細胞で、どの遺伝子の発現量が違うのか」「薬を投与する前後で、細胞の状態はどう変わったのか」といった問いに答えることができます。現代の生命科学研究において、RNA-seqは最も広く使われる解析手法の一つです。

この記事では主に現在最も主流であるショートリードシークエンスについて扱います。


解析の全体フロー

RNA-seqの解析は、大きく以下の5つのステップで構成されます。

生データ(FASTQファイル)
 ↓
① クオリティチェック
 ↓
② トリミング
 ↓
③ マッピング
 ↓
④ カウント
 ↓
⑤ 発現変動解析
 ↓
結果(発現変動遺伝子リスト)

💡 FASTQファイルとは? シーケンサー(DNAやRNAを読み取る機械)から出力される生データのファイル形式です。塩基配列とその品質情報がセットで記録されています。受託シークエンス解析を依頼した場合、基本的にはFASTQファイルで納品されることが多いです。

各ステップの詳細は個別の記事で解説します。まずはこの流れ全体を頭に入れておきましょう。


各ステップで使う主なツール

以下は各ステップで登場する代表的なツールの一覧です。

ステップ主なツール
① クオリティチェックFastQC、MultiQC、Falco
② トリミングfastp、Trimmomatic、Cutadapt、BBDuk
③ マッピングHISAT2、STAR、Bowtie2、TopHat2
④ カウントfeatureCounts、HTSeq-count、Salmon、kallisto
⑤ 発現変動解析DESeq2、edgeR、limma-voom

ツールの数を見て、「どれを使えばいいの?」と感じた方もいるかもしれません。次のセクションでその考え方を説明します。


ツール選びの考え方

バイオインフォマティクスの解析で初学者が最も迷うのが、「たくさんあるツールの中からどれを選ぶか」という問題です。

解析サイトを見ると、サイトによって使っているツールが違う。調べれば調べるほど混乱する——そういった経験をしたことがある方は多いのではないでしょうか。

ツールを選ぶときには、以下の3つの観点を意識すると整理しやすくなります。


観点①:そのツールはRNA-seq向けに設計されているか

ツールの中には、DNA-seq(ゲノム解析)向けに設計されたものがあります。たとえばマッピングツールのBowtie / Bowtie2はDNA-seq向けであり、RNA-seqに使うと精度が落ちる場合があります。しかしSmall RNA-seqというシークエンスでは逆にBowtie / Bowtie2が有用なときもあります。自分が行う解析の特性を理解し、適切なツールを選ぶことが大切です。

特にRNA-seqには、スプライシングを考慮できるツールを選ぶことが重要です。

💡 スプライシングとは? 遺伝子からRNAが作られる際に、不要な部分(イントロン)が除去され、必要な部分(エクソン)だけがつなぎ合わされる仕組みです。RNA-seqではこの処理を考慮したマッピングが必要です。


観点②:そのツールは現在も活発にメンテナンスされているか

ツールにも「旬」があります。かつての定番ツールでも、現在は開発が止まっており、新しい環境では動作しないものがあります。

たとえばマッピングツールのTopHat2はかつて広く使われていましたが、現在は開発が終了しており、現在ではレガシーツールという位置づけになっています。後継としてHISAT2が使われているようです。


観点③:自分の研究目的・計算環境に合っているか

同じステップのツールでも、得意なことが異なります。

  • 精度を重視するか、速度を重視するか
  • 手元のパソコンで動かすか、スパコンで動かすか
  • サンプル数が少ないか、大規模データか

これらの条件によって最適なツールは変わります。各ツールの詳細な比較は個別の記事で解説しますが、まずは「目的によって使い分ける」という考え方を持っておくことが大切です。


迷ったときの基本セット

上記の観点を踏まえた上で、初学者が最初に選ぶべき基本のツールセットを示します。

ステップまず試すべきツール理由
クオリティチェックFastQC最も情報が多く、トラブル時に解決策を見つけやすい。受託解析業者の方も使用しているようで、信頼できるツールといえる
トリミングCutadaptアダプター除去に特化しており、シンプルで使いやすい。
マッピングSTARRNA-seq向けで、非常に処理が速い。しかしメモリ使用量が多いのがネック。現在のRNA-seqの解析の定番ツール。
カウントHTSeq-countコードが非常にシンプルで、使いやすい。Pythonなどプログラミング言語での操作もできるので汎用性が高い。速度が遅いのが欠点。
発現変動解析DESeq2論文での採用率が高く、ドキュメントが充実

ただしこれはあくまで出発点です。研究が進むにつれて、目的に応じたツールに切り替えていく柔軟さも大切です。


この連載について

この記事はRNA-seq解析入門シリーズの第1回です。次回以降は各ステップを深掘りし、ツールの具体的な使い方と選び方を解説していきます。

記事内容
①(本記事)全体フローとツール選びの考え方
クオリティチェック編
トリミング編
マッピング編
カウント編
発現変動解析編

コメント

タイトルとURLをコピーしました