原文發表於第 11 屆 iT 邦幫忙鐵人賽 (https://ithelp.ithome.com.tw/articles/10218654)

每次追動畫最不想看到的就是混時間的總集篇

但是該省的經費還是要省,讓我們來看看已經學過了什麼吧!

(截圖來自動畫 Kill La Kill)

RNA-Sick@Day1 > 你己被選中成為「賽博格研究生」|生物資訊 の 冒險記趣 feat. Phylo 既然決定踏上生物資訊的冒險,想必都有了充分的覺悟。跨領域研究之路上充滿了誤區與陷阱,但很幸運地我們生在人人是賽博格的網路時代,讓更多人一起加入這趟旅程,白洞,白色的明天在等著我們!

RNA-Sick@Day2 > 一旦接受了這種設定,操作起電腦還是挺帶感的嘛|像個駭客一樣用電腦 feat. Terminal (終端機) 而要跟電腦打交道,用終端機的能力不可少,熟悉基本指令之後,進階操作就在做中學吧!

RNA-Sick@Day3 > 小孩子才要做選擇,我全都要|入門生物資訊該學什麼語言呢 feat. Anaconda 知道如何用終端機跟電腦溝通後,我們還需要一顆程式邏輯腦。由 Python 入門寫程式與生物資訊十分合適,而 Anaconda 是超級方便的跨平台新手包!

RNA-Sick@Day4 > 我們凡事求一個圓|第一次執行 Python 腳本就來算圓周率吧 feat. Jupyter Notebook Jupyter Notebook 是一個方便的開發環境,透過簡單的圓周率計算,執行你的第一個 Python 程式吧!

RNA-Sick@Day5 > 原來是純文字編輯器啊,我還以為是整合式開發環境呢|準備一個喜歡的打字所在 feat. Atom 搞生物資訊除了要寫程式以外,一言不合就要整理序列或純文字檔案的格式。可以自由改造的 Atom 純文字編輯器,軟體開發、資料角力、文件寫作無所不能!

以上五天就是這系列文的第一部分「基礎篇」,有基礎工具及操作能力之後,接下來將會依序進入「轉錄體流程篇」、「綜合分析篇」、以及「學術生活篇」。

為了從「基礎篇」銜接到「轉錄體流程篇」,以下將透過 SRA Toolkit 這套工具,準備「轉錄體流程篇」所需要的原始定序資料,以及作為第一部分「基礎篇」的回顧練習。

打鐵趁熱,馬上來場實戰綜合練習吧!

任務簡介

閱讀到應用高通量定序技術的文章時,必須要時常保有一股想質疑的念頭,這種研究常見的誤區就是研究者試著把一些資料擺弄來擺弄去,就當作是新研究成果。

Garbage in, garbage out.

這時候就是『詳細希望』出場的時刻了!理論上為了確保學術的可再現性,文章中通常都會標註他們使用的資料可以在 NCBI 相關資料庫的什麼 accession number 或專案中取得。讀者可以自由運用必須在終端機操作的 SRA Toolkit 來下載詳細的原始資料,並嘗試重複其分析方法。馬上撩起袖子,小試一下身手吧!

(截圖來自動畫攻殼機動隊)

任務關鍵步驟

  1. 下載並安裝 SRA Toolkit,簡單閱讀教學文件以了解如何運用
相關連結:[SRA Toolkit Download](https://www.ncbi.nlm.nih.gov/sra/docs/toolkitsoft/)
  1. 聽說香蕉的栽培需要很多化學肥料,改採用有益的微生物可以對環境更友善,因此想要了解有益微生物會如何影響香蕉的基因表現,請依據關鍵字找到指定的神秘文章
線索:Banana, BMC genomics, rhizobacteria
  1. 找到文章中記載公開資料存放之章節中的連結,並在連結頁面中找到對應的 SRA 代號
關鍵字:availability
  1. 用 SRA Toolkit 的神秘指令下載該筆資料的 fastq 檔案
提示:用**終端機**操作,檔案可能很大,所以時間有限的話先下載其中一筆就好
  1. 純文字編輯器開啟 fastq 檔案,初步了解 fastq 的格式
註記:檔案很大,可能會開失敗,那就算了 (?)

(截圖來自動畫JoJo的奇妙冒險)

乍看之下好像有點麻煩,但是過程中的困難就是生物資訊常常會遇到的問題,這些只是基本的前置作業。給自己一個鼓勵、信心喊話後試試看吧!下一回將會公布任務各個環節的執行細節與更多說明,敬請期待~

參考資料與延伸閱讀

SRA

https://www.ncbi.nlm.nih.gov/sra/docs/toolkitsoft/