最近有同學問大碗,在數據分析時,經常會遇到的一個問題就是我們需要在各種不同的gene ID之間來回轉換,搞得人頭昏腦漲,於是大碗想通過這次推文給大傢歸納一下我們常用到的基因名轉換方式,快點碼住學起來吧!
(學習更多生信小知識都在“生信大碗”,學習交流q群787146651)
我們很熟悉的基因ID號包括gene symbol,Ensembl gene ID,Entrez gene ID等,那你知道official symbol=gene symbol,Entrez gene ID=gene ID嗎?今天的分享包括網頁版和R包兩種方式的基因名轉換,快來學起來吧!
01
Biodbnet數據庫
在網頁搜索:
http://biodbnet-abcc.ncifcrf.gov進入主頁,依次點擊如下:
選擇輸入與輸出基因的類型,ID list處可以輸入單個基因名,也可以輸入基因列表。
同時檢索多個基因id時可以直接從excel中粘貼下來,格式如下圖:
2bac88ad0047bfe78e82d748571d3591
還有一種更方便快捷的方法就是直接點擊dbFind,選擇輸出基因ID類型,ID list處輸入基因名。
1ef4d641f0f2ac5441e72f626f192432
02
DAVID數據庫
1.登陸網址:http://david.ncifcrf.gov/,依次點擊如下:
335c4d91273cf15f5ab4bf46eb5774e6
2.選擇基因ID轉換:
3.選擇轉換後的基因名類型、填寫物種信息:
4.提交後得到結果:
上面這種網頁版的方法雖然簡單,但是有時候並不是很方便,因為我們大部分的數據分析是在R中進行的,而基因很多的時候,使用網頁版的方法,可能就需要我們先把基因導出才可以完成。那麼接下來我們來看下如何通過R包實現基因名的轉換。
03
clusterProfiler包的bitr() 函數
library(clusterProfiler)
library(org.Hs.eg.db)
data <- read.csv("data.csv")#讀入基因文件
gene<-bitr(data$gene_id,
fromType="SYMBOL",
toType="ENSEMBL",
OrgDb = "org.Hs.eg.db")
#fromType是指轉換前的基因id屬於哪一類;toType是指轉換後的基因id屬於哪一類類型;OrgDb是對應的註釋包。通過keytypes(org.Hs.eg.db) 可以查看這個包中有哪些基因ID類型。
上一篇