原文發表於第 11 屆 iT 邦幫忙鐵人賽 (https://ithelp.ithome.com.tw/articles/10219591)

進入轉錄體流程篇

已經寫完了奠定基礎功的七篇,第八天開始就會是基礎分析流程之工具使用。想當初我剛開始進行碩論中 RNA-seq 這個試驗方法的時候,正巧看到一篇寫得很好讀的 Review 文章,因此初期透過該文及相關課程 (註) 建立了基礎的觀念,後來才陸續閱讀更源頭的文獻補齊各種缺漏。本系列文之轉錄體流程篇現階段預計不涉及觀念解釋,僅呈現工具之使用,一來因本人能力有限,二來則是因為現在大部分生技公司都有一套自動化流程,只要顧客填表單就會協助產生一套報表。報表包含顧客可以直接用在文章中的圖表,因此有時候讀到中國出的文章,就會看到很眼熟的視覺化風格。也就是說,轉錄體流程部分,有興趣的人自然會想辦法研究到懂,而推測本指南的目標讀者也不需要實際執行這階段的分析,因此現階段初稿會較為精簡,僅達題綱之用。

註:記憶所及,在台大上的相關課程包括生物資訊導論、基因體與系統生物學。

fastq 格式簡介

Fastq 檔案中,每四行就是一段序列之描述。第一行與第三行分別固定以 @+ 符號開頭,其後為針對該序列之描述,內容完全相同或第三行 + 號後省略。第二行為核苷酸代號,第四行則是描述該核苷酸鹼基定序品質。關於品質為什麼用單一字符來代表,以及其確切對應品質之計算方式請見國際連結中提供的圖片及說明。

DNA 定序過程中,藉由在合成的過程中發出螢光,電腦判讀螢光訊號,再轉換成數位格式儲存。

依據訊號的解析情形給予該鹼基一個 score,再將此 score 依據下方的對照表轉換成單一字符。

現在規格已經逐步同步,都是使用 Phred+33 的表示方式。

FastQC 使用

Babraham Bioinformatics - Public Projects Download

下載相對應作業系統之安裝檔案,java 開發,跨平台可用,以下以 mac 為例。

下載後開啟 fastqc_v0.11.8.dmg 檔案,可以選擇直接執行或是將 [FastQC.app](http://fastqc.app) 拖曳複製到 Applications

執行方式必須要按右鍵以 open,否則無法執行。

(上圖便是直接雙擊執行 app 之後的視窗,之後遇到的許多生物資訊軟體在 mac 上因為不是認證的開發者,所以都要用右鍵開啟才能執行)

(上圖是以用右鍵開啟執行,出現 Open 了)

起始畫面就是這麼樸實無華且枯燥

不能直接拖曳檔案進去,請去左上角之 File 開啟要檢查的 fastq 檔案

試著找到需要檢查的檔案位置

這筆檔案是以下方指令下載,僅有五千條讀序 (spot)

fastq-dump -X 5000 --split-files SRR3406492

報告畫面,左側可以看到共有十個頁籤

每個頁籤的內容,基本上就是字面上的意思,他們的官方網頁上有更詳盡的說明。值得一提的是出現黃色驚嘆號或紅色的叉叉,並不代表真的有問題,有些其實是自然現象,因此通常看第二個頁籤的 Per base sequence quality 的盒方圖就可以大致判定這筆序列有沒有問題囉!

如果有任何安裝與使用上的問題,需要中文支援,歡迎在下方留言~

參考資料與延伸閱讀

Babraham Bioinformatics - Public Projects Download

FASTQ format

科学网-Fastq 格式说明 & (Phred33 or Phred64) - 揭文才的博文