RNA-seq解析入門②:クオリティチェック編

この記事では、RNA-seq解析の最初のステップであるクオリティチェックについて解説します。なぜクオリティチェックが必要なのかという概念から、FastQC・MultiQC・Falcoの3つのツールの特徴と使い分け、FastQCの具体的な使い方と出力結果の読み方まで、初学者にもわかりやすく説明します。

クオリティチェックとは?なぜ必要なのか

RNA-seq解析の最初のステップは、得られた生データの品質を確認することです。

シーケンサーから出力されたFASTQファイルには、塩基配列とともに各塩基の品質スコアが記録されています。しかし、このデータは常に完璧ではありません。

💡 品質スコア(Phredスコア)とは? 各塩基が正しく読み取れているかの信頼度を数値で表したものです。スコアが高いほど信頼性が高く、一般的にQ20(99%の精度)以上が合格ラインとされています。

シーケンスデータには以下のような問題が含まれることがあります。

  • 品質の低い塩基:シーケンサーの読み取りエラーによるもの
  • アダプター配列の混入:シーケンス時に付加される不要な配列
  • GCバイアス:特定の塩基組成に偏りがある状態
  • 重複リード:同じ配列が異常に多く含まれている状態

💡 アダプター配列とは? シーケンサーでDNA・RNAを読み取る際に、技術的な理由から配列の端に付加される人工的な配列のことです。解析前に除去する必要があります。

こうした問題を事前に把握せずに解析を進めると、誤った結果につながる可能性があります。 クオリティチェックは「データが信頼できるか」を確認する、解析の土台となるステップです。


主なツールの紹介と比較

クオリティチェックで使われる主なツールは以下の3つです。

ツール名開発言語特徴
FastQCJava最も広く使われている定番ツール
MultiQCPython複数サンプルの結果をまとめて表示
FalcoC++FastQCの高速版・互換性が高い

FastQC

FastQCはクオリティチェックの世界標準ツールといっても過言ではありません。HTML形式のレポートを出力し、以下の項目を視覚的に確認できます。

  • 塩基ごとの品質スコアの分布
  • GC含量の分布
  • アダプター配列の混入率
  • リードの重複率

このツールを選ぶ理由 情報量が圧倒的に多く、エラーが出たときにインターネットで解決策を見つけやすいです。受託解析業者でも標準的に使用されており、信頼性の高いツールといえます。初学者が最初に学ぶべきツールとして最適です。


MultiQC

MultiQCは、FastQCの結果を複数サンプルまとめて1つのレポートに統合するツールです。

たとえばサンプルが10個ある場合、FastQC単体では10個のHTMLファイルを個別に確認する必要があります。MultiQCを使えば、それを1つのレポートで一覧できます。

このツールを選ぶ理由 サンプル数が複数ある場合は、FastQCとMultiQCをセットで使うのが現在の標準的なワークフローです。サンプル間の品質のばらつきも一目で把握できます。

FastQC単体で十分な場合 サンプルが1〜2個の場合や、まず解析の流れを学びたい初学者の段階ではFastQC単体で問題ありません。


Falco

FalcoはFastQCとほぼ同じ出力を得られる高速版ツールです。C++で実装されており、FastQCと比べて数倍高速に動作します。

このツールを選ぶ理由 大規模データを扱う場合や、処理速度を重視する場合に有効です。出力形式がFastQCと互換性があるため、MultiQCとも組み合わせて使えます。

FastQCで十分な場合 データ量が少ない場合や、初学者の段階ではFastQCとの速度差はほとんど気になりません。まずFastQCで学び、必要に応じてFalcoに移行するのがおすすめです。


ツール選びのまとめ

状況おすすめの選択
はじめてクオリティチェックをするFastQC
サンプルが複数あるFastQC or MultiQC
大規模データで速度を重視するFalco

FastQCの基本的な使い方と出力結果の読み方

FastQCの2つの起動方法

FastQCにはコマンドラインとGUIの2つの使い方があります。目的や習熟度に応じて使い分けましょう。また、環境構築の方法はこちら(FastQC環境構築編)を参考にしてください。

方法①:コマンドライン(ターミナル)で実行する

bash

fastqc sample.fastq.gz -o output_dir/
  • sample.fastq.gz:解析したいFASTQファイル
  • -o output_dir/:結果を保存するフォルダの指定

スクリプトに組み込んで自動化できるため、複数サンプルを一括処理する場合に便利です。実行が完了すると、output_dir/の中にHTMLファイルが生成されます。このファイルをブラウザで開くとレポートを確認できます。


方法②:GUIで実行する

ターミナルで以下のコマンドを入力するとGUI画面が起動します。

bash

fastqc

画面上の「File」→「Open」からFASTQファイルを選択して解析できます。コマンドに不慣れな初学者や、まず動作を確認したい場合に向いています。


出力結果の読み方

FastQCのレポートには複数の項目があります。特に重要な3つを解説します。

① Per base sequence quality(塩基ごとの品質スコア)

各塩基位置における品質スコアの分布を示すグラフです。

  • 緑の領域(Q28以上):高品質
  • 黄色の領域(Q20〜28):許容範囲
  • 赤の領域(Q20未満):低品質・要注意

リードの末端に向かって品質が下がるのは正常な傾向です。しかし末端の品質が著しく低い場合は、次のステップ(トリミング)で除去する必要があります。

② Adapter Content(アダプター配列の混入)

アダプター配列がどの程度混入しているかを示すグラフです。グラフが右側に向かって上昇している場合、アダプターが混入しており、トリミングが必要です。このグラフのFigure legendを見るとそのアダプターが混入しているかわかります。次のトリミング工程では、このアダプターを除去します。

③ Per sequence GC content(GC含量の分布)

サンプル全体のGC含量の分布を示すグラフです。理想的には釣り鐘型の分布になります。大きく歪んでいる場合はサンプルの汚染や偏りが疑われます。しかし、特殊な条件下で行ったシークエンス解析の場合、偏りがあるかもしれません。どの指標においても、自身の行う解析に合わせて解釈する必要があります。


環境構築について

FastQCを実際に動かすための環境構築(インストール方法)は、以下の記事で詳しく解説しています。

→ FastQC環境構築編


まとめ

  • クオリティチェックはRNA-seq解析の土台となる重要なステップ
  • 基本はFastQC、複数サンプルはMultiQCを組み合わせる
  • 大規模データにはFalcoが有効
  • レポートの中でも特に「品質スコア」「アダプター混入」「GC含量」を重点的に確認する

コメント

タイトルとURLをコピーしました