原文發表於第 11 屆 iT 邦幫忙鐵人賽 (https://ithelp.ithome.com.tw/articles/10219591)
進入轉錄體流程篇
已經寫完了奠定基礎功的七篇,第八天開始就會是基礎分析流程之工具使用。想當初我剛開始進行碩論中 RNA-seq 這個試驗方法的時候,正巧看到一篇寫得很好讀的 Review 文章,因此初期透過該文及相關課程 (註) 建立了基礎的觀念,後來才陸續閱讀更源頭的文獻補齊各種缺漏。本系列文之轉錄體流程篇現階段預計不涉及觀念解釋,僅呈現工具之使用,一來因本人能力有限,二來則是因為現在大部分生技公司都有一套自動化流程,只要顧客填表單就會協助產生一套報表。報表包含顧客可以直接用在文章中的圖表,因此有時候讀到中國出的文章,就會看到很眼熟的視覺化風格。也就是說,轉錄體流程部分,有興趣的人自然會想辦法研究到懂,而推測本指南的目標讀者也不需要實際執行這階段的分析,因此現階段初稿會較為精簡,僅達題綱之用。
註:記憶所及,在台大上的相關課程包括生物資訊導論、基因體與系統生物學。
fastq 格式簡介
Fastq 檔案中,每四行就是一段序列之描述。第一行與第三行分別固定以 @
和 +
符號開頭,其後為針對該序列之描述,內容完全相同或第三行 +
號後省略。第二行為核苷酸代號,第四行則是描述該核苷酸鹼基定序品質。關於品質為什麼用單一字符來代表,以及其確切對應品質之計算方式請見國際連結中提供的圖片及說明。
DNA 定序過程中,藉由在合成的過程中發出螢光,電腦判讀螢光訊號,再轉換成數位格式儲存。
依據訊號的解析情形給予該鹼基一個 score,再將此 score 依據下方的對照表轉換成單一字符。
現在規格已經逐步同步,都是使用 Phred+33 的表示方式。
FastQC 使用
Babraham Bioinformatics - Public Projects Download
下載相對應作業系統之安裝檔案,java 開發,跨平台可用,以下以 mac 為例。
下載後開啟 fastqc_v0.11.8.dmg
檔案,可以選擇直接執行或是將 [FastQC.app](http://fastqc.app)
拖曳複製到 Applications
。
執行方式必須要按右鍵以 open,否則無法執行。
(上圖便是直接雙擊執行 app 之後的視窗,之後遇到的許多生物資訊軟體在 mac 上因為不是認證的開發者,所以都要用右鍵開啟才能執行)
(上圖是以用右鍵開啟執行,出現 Open 了)
起始畫面就是這麼樸實無華且枯燥
不能直接拖曳檔案進去,請去左上角之 File 開啟要檢查的 fastq 檔案
試著找到需要檢查的檔案位置
這筆檔案是以下方指令下載,僅有五千條讀序 (spot)
fastq-dump -X 5000 --split-files SRR3406492
報告畫面,左側可以看到共有十個頁籤
每個頁籤的內容,基本上就是字面上的意思,他們的官方網頁上有更詳盡的說明。值得一提的是出現黃色驚嘆號或紅色的叉叉,並不代表真的有問題,有些其實是自然現象,因此通常看第二個頁籤的 Per base sequence quality
的盒方圖就可以大致判定這筆序列有沒有問題囉!
如果有任何安裝與使用上的問題,需要中文支援,歡迎在下方留言~