原文發表於第 11 屆 iT 邦幫忙鐵人賽 (https://ithelp.ithome.com.tw/articles/10221160)

代號之卷 (Component, Gene, Isoform)

新組裝轉錄體後,會產出一個 Trinity.fasta 的序列檔案,其中包含所有可能的轉錄產物 isoform,以下是針對序列代號的說明:

每個代號中有三個關鍵的字符:C (component)、G (gene)、I (isoform),而他們連帶前綴的 DN 代碼都只是軟體中的操作型定義。G 和 I 所對應到的生物意義其實沒有辦法仔細區分。前綴相同而擁有不同 G 序號的序列,有可能其實是相同基因家族的不同成員 (paralogs),也有可能是 Gene Fragment (註)。前綴相同而擁有不同 I 序號的序列,有可能其實是非常相似的基因家族成員 (paralogs),也有可能真的是選擇性剪切 (alternative splicing) 之 isoform。而這些資訊在 Trinity 的官方文件中沒有太完整直白的說明,是由作者之一 Brian Haas 在某個 Google+ 討論區回答使用者問題時解釋的。

註:所謂 Gene Fragment 指的是來自相同的基因座之某一轉錄產物,在定序階段僅有其 5' 端與 3' 端有較高的覆蓋率,因而在組裝階段無法將兩端的序列組裝還原成原本的單一轉錄產物,誤判成兩條轉錄產物之結果。

註解之卷

Trinotate 是一套銜接於 Trinity 後的綜合註解流程,本身並沒有額外的演算法在其中,只要照著操作就可以有一套相對完整的對於新組裝轉錄體之註解資訊。Trinotate 首先將 Trinity.fasta 的所有 isoform 透過 TransDecoder 預測轉錄產物的轉譯結果,得到相對應的 peptide 序列之後才分別透過 BLAST 和 HMMER 等序列比對工具與數個不同的線上資料庫比對,比對結果匯集入 SQL 資料庫中。最後一般使用者可以選擇直接由 SQL 匯出一個巨大的 Excel 表格,老闆看了就會很開心;進階使用者則可以依自己的需求進行更靈活的運用與分析。

基本上官方文件的說名也挺詳細,所有步驟只要複製腳本或指令就可以成功執行。只是某些階段如 blast 也可能需要執行兩到三天,要有點心理準備~

如果有想要了解更多的面向,或是說明不清之處,請留言告訴我~

參考資料與延伸閱讀

Trinotate/Trinotate.github.io