實用科研工具推薦 、詳實生信軟件教程分享、前沿創新組學文章解讀、獨傢生信視頻教程發佈,歡迎關註微信公眾號:基迪奧生物 (gene-denovo)
本文作者:L.L
10X Genomics測得的單細胞數據是包含細胞及其表達量在內的高維數據,無論是PCA還是tSNE都是純數學的數據降維方式,以此得到的細胞分群不具有生物學意義,故而我們通常需要賦予細胞分群以生物學含義即完成細胞亞群到細胞亞型的映射。
在這一過程中,我們需要解決兩個問題:
(1)已知細胞亞型的鑒定,如外周血樣品中鑒定紅細胞、單核細胞等對應哪些細胞亞群;(2)未知細胞亞群或罕見細胞亞型的鑒定,如肝臟樣品因炎癥細胞浸潤出現的標記基因異常的免疫細胞的鑒定。
為瞭完成上述任務,我們需要借助標記基因。在之前的公眾號推文中(戳這裡),基迪奧介紹瞭CellMarker網站來檢索標記基因。但是,如何將我們檢索得到的信息應用於我們的實驗結果呢?
基迪奧已經承接瞭數目可觀的10X項目,在利用標記基因鑒定細胞亞群方面積累瞭豐富的經驗。這裡,我們以項目經驗為基礎為大傢分享細胞亞群鑒定的過程。
在本文中,我們選擇一組人腎臟樣本作為示例。首先,我們對數據進行可視化處理,將細胞劃分為11個細胞亞群。從圖中我們僅知道細胞被分為11個亞群,但是每個亞群對應的細胞類型還是未知,如此,便需要後續的細胞亞群鑒定。
現在,我們想找尋腎臟組織中單核細胞所對應的細胞亞群。在CellMarker網站定向檢索,通過“Kidney”→“Monocyte”,點擊“submit”即可檢索得到該細胞亞型的標記基因。
單核細胞作為一種被廣泛研究的細胞亞型,其標記基因庫極為龐大,左側的圖像已無法與支持文獻數量關聯,查閱右方的詳細列表,以最多文獻支持數作為標準挑選至少9個備用標記基因:CD68,CD52,HLA-DRA,ITGAX,LYZ,MNDA,S100A8,ABTB1,ACAA1。接下來,我們要將標記基因的信息對應至10X數據,呈現方式主要有:
1.小提琴圖
小提琴圖可以反映亞群中各個細胞的標記基因表達量分佈,常用於細胞類型的驗證;但是對於低表達比例的標記基因不敏感,如基因ITGAX、ABTB1和ACAA1的分佈情況並不明朗。
4e4d773952c3c479ba2ebc6d4cbbd3b0
2.氣泡圖
氣泡圖可以反映亞群中各個亞群標記基因的平均表達量和表達標記基因的細胞比例,可以良好呈現低細胞數量亞群的表達量信息,同時對於低豐度的標記基因有一定的檢出率。
但是會將表達量信息平均化,掩蓋低比例的表達目標基因的細胞信息,例如S100A8在cluster6中的表達,經由小提琴圖展示顯示核密度集中在高表達量區段,但是經由氣泡圖展示顯示該基因在cluster6中表達量較低,致使該基因在cluster6中的表達信息被低估。
54ffed743c451465856afde10c1e300e
3.熱圖
熱圖綜合反映基因表達水平、表達標記基因的細胞亞群的分佈及細胞亞群中表達標記基因的細胞數量,是進行標記基因呈現的主要方式。但是圖像會受到早期數據均一化處理的影響,對於表達標記基因細胞較少的亞群缺乏辨識力,如cluster10因為細胞量過少,無法獲悉該亞群標記基因表達情況。
4.基因映射圖
基因映射圖可以給予最直觀的表達標記基因細胞分佈情況,但是一張圖隻能呈現一個基因,檢測多個基因時圖片信息復雜,缺乏呈現多因素結果的能力。這類圖更適用於展示基因分佈而非亞群鑒定。
合理選擇數據呈現形式可以使得我們更加直觀地判斷細胞類型。
通過數據呈現,我們發現標記基因的分佈並不如理想中完美,隻有CD68和MNDA僅在cluster6集中表達,其他標記基因的鑒定都存在幹擾信息:(1)標記基因在多個細胞亞群中均有較高表達,如CD52在cluster1、5、6、7、9中均有較高表達,LYZ在cluster1、6中均有較高表達;(2)標記基因在所有細胞亞群中表達量均很低,如ITGAX、ABTB1和ACAA1。
面對以上情況,我們可以采取三個方案來解決:
1“從眾心理”
表達標記基因最多的細胞亞群最有可能為我們需要鑒定的細胞類型。在我們的數據中,盡管存在標記基因在多個細胞亞群中較高表達的情況,但是從熱圖可以看出cluster6表達瞭6個標記基因,是表達標記基因最多的細胞亞群,所以cluster6應為單核細胞。
2 多圖結合分析
采用多種標記基因結果呈現圖,可以適當放大目標信號或者減弱背景信號。例如小提琴圖顯示HLA-DRA基因在出cluster5、6中均有較高表達,但是該基因由熱圖呈現出在cluster6中的集中表達;小提琴圖顯示ACAA1在所有亞群中表達量均很低,但是該基因由氣泡圖顯示出在cluster6中的微量集中表達。通過多圖結合分析,我們判斷cluster6應為單核細胞。
3 選取更多的標記基因
選取更多的標記基因參與細胞類型鑒定。
在分群時,我們發現瞭一個細胞數量極少的細胞亞群cluster10。我們想確定cluster10的細胞類型,首先我們利用Seurat包的FindAllMarkers功能找尋cluster10的差異表達基因,挑選其中表達量差異最大的十個基因用作鑒定該細胞亞群。
5f150a6eef4306b84887d04efa33b0db
通過篩選得到的十個基因進行檢索,我們得到如下圖的結果。所有的結果都包含瞭腎臟組織,而所有的細胞亞型都指向瞭B細胞和漿細胞。
漿細胞本身就是B細胞的一個細胞亞型,保險起見,我們可以定義cluster10為B細胞。但是,兩者的標記基因還是存在一定差異,我們可以嘗試進一步確認cluster10是否為漿細胞。采用第2節介紹的方法進行鑒定,分別選取B細胞和漿細胞支持文獻數量前9的標記基因檢驗分群情況。因為cluster10是細胞量極少的一個群,所以我們選擇氣泡圖展示結果。
從氣泡圖可見B細胞的標記基因在cluster10中均有較高表達,而漿細胞的標記基因在cluster10中表達較少,所以cluster10應為B細胞,漿細胞應隻在cluster10中有少量分佈。
以上兩個方法是進行細胞亞群鑒定的主流途徑,該途徑是通過已知標記基因人為鑒定細胞亞群,主觀性較強,但受限於已有研究結果和操作人員的經驗。自去年起,也有基於生物信息學的客觀的亞群鑒定方法發表(R包SingleR和celaref),但是因現有細胞亞型轉錄本的匱乏,並未得到廣泛推廣。
基迪奧現承接的10X項目還是以主流途徑為主鑒定細胞亞群,如有需要,我們也可利用客戶提供的細胞亞型轉錄組信息使用celaref進行細胞亞型鑒定。我們希望為客戶提供更全面、更細致的科研服務。有興趣的客戶可以隨時聯系我們。
好啦,今天的內容就到這裡啦~