你有沒有想過創造一個世界?
或者,如果讓你當創世神的話,你知道該怎麼構造這個世界嗎?
千百年來,人類一直試圖回答這個問題:用語言、用圖像、用視頻。可是還是不夠。我們從未能真正重現我們所感受的世界,隻能憑借真實經驗的腦補,將它們當做真的而已。
媒介限制瞭我們對世界的描摹。
有沒有一種方式,能夠讓我們真正地拿起上帝的畫筆?
有一群人,試圖用 VR 給出答案。
VR 的歷史可以追溯至 20 世紀 60 年代,Philco (現被飛利浦收購)的兩位工程師 Charles Comeau 和 James Bryan 制造出瞭一款用於軍事目的頭戴式顯示器 HeadSight,該設備能夠顯示來自隔壁房間攝像頭的視頻畫面,攝像頭的位置可根據佩戴者的頭部移動而移動,從而塑造出一種臨場感。
圖一,圖片來自 THE VR SHOP
作為人類歷史上的第一款量產頭戴式顯示器,Philco Headsight 的視場角僅有 40°,刷新率也僅有 10 Hz,而重量則是…未知。
60 餘年過去瞭,早 Philco Headsight 五年的達特茅斯會議,經歷過潮起潮落,終於在上一年迎來瞭它們最重磅的主角:ChatGPT。而頭戴式設備也並非吳下阿蒙,空間定位、眼動追蹤、手勢識別、Micro LED、Pancake 光學模組,硬件、算法與工程學的結合,讓上帝的畫筆呼之欲出。
接下來,就讓我們進一步走進 VR 的世界。
正如把大象塞進冰箱需要三步,制造一臺 VR 設備也是如此:
第一步:讓世界在我們的眼前呈現
第二步:讓世界與我們進行實時地交互
第三步:把一切都塞到一臺頭戴式設備上,讓其獨立運行
我們先來談第一步。
讓世界在我們的眼前呈現,這件事我們並不陌生,已然創造瞭一個賽博世界的我們,透過手機的屏幕,另一個世界的光映入眼中。把手機換成 VR 設備,道理也是一樣的:我們需要一塊屏幕,然後我們把屏幕的光映入眼中。
我們需要一塊屏幕,以顯示另一個世界的豐富。古早的時候,因為看重 AMOLED 的色彩飽和度,VR 顯示屏用的都是 AMOLED,但 AMOLED 的像素密度低且難以提升,並且存在紗窗效應(像素低導致的,人眼可以看到像素點),所以便更換成瞭 LCD 。
LCD 是液晶顯示屏,對比度、色域、亮度都不夠,同時刷新率低。為瞭改善 LCD,Fast-LCD 又被引入,顧名思義,Fast-LCD 采用瞭超速驅動技術,刷新率可以提升到 75-90 Hz,同時用瞭新的液晶材料,呈像效果上也有所改善。
但 Fast-LCD 仍然存在問題,由於是背光技術,不能自發光,需要有背光光源,所以面板上容易出現漏光現象。為瞭解決這個問題,業內通常采用 Fast-LCD + Mini LED 背光光源的方案,將 Mini LED 作為 Fast-LCD 的背光光源。Mini LED 實際上就是在背板上集成瞭尺寸更小的 LED 燈珠,所以亮度、對比度都會有所增強。
目前,Fast-LCD + Mini LED 背光光源已成為 XR 設備的主流方案, 但 Micro OLED 和 Micro LED 將是未來的探索方向。兩者都是自發光技術,無需背光,無論從色域、亮度、對比度,還是功耗、分辨率等方面都領先其他方案。隨著Apple vision pro 采用 Micro OLED,Micro OLED 的發展將進一步加速。
圖二,表格由 MicroDisplay 整理
如果說把手機的光映入眼簾,是一件再自然不過的事。VR 設備的光就有所講究瞭,從業者至少需要解決三個問題:
近眼成像:視力正常者的最小物距(物體距離眼睛的距離)是 14 cm,而 VR 設備的屏幕物距僅 3-4 cm;
深度感知:VR 設備的屏幕呈現的是 2D 畫面,而沉浸式體驗需要 3D 呈現;
視覺放大:VR 設備的屏幕僅為普通眼鏡大小,而 VR 畫面渲染需要與現實世界同等尺寸乃至更大;
乍聽起來,三個問題都如天方夜譚。然而受惠於神經科學和認知科學的發展,也得益於自托勒密時便興起的視錯覺研究,看似無能為力的問題亦都有瞭解法。
這都要從人的視覺機制說起。
人眼是如何看到事物的?不妨以照相機作喻:人眼是凸透鏡成像,晶狀體是照相機鏡頭,視網膜是照相機膠片。
圖三,圖片來自網絡
物體光線從瞳孔進入眼睛,經由晶狀體(凸透鏡)折射,最終形成在視網膜上的倒立實像,經由人腦的算法自行復為正位。
凸透鏡的成像原理,初中時都學過,透鏡把平行光線匯聚於一點,形成實像/虛像。近大遠小實際上也是因為凸透鏡的作用(經過軸心的光線入射角減小,所以高度增加)。
圖四,表格來自均一教育
如圖所示,焦距固定,物距不同時,成像的距離也有所不同。當物距小於焦距時,物體成虛像,也就是放大鏡的功效。
圖五,圖像來自百度百科
運用凸透鏡成像的規律,把光映入眼中的其中兩個難題就可以解瞭。根據上圖可得,當物體放置到透鏡的一倍焦距內,便會在一倍焦距到二倍焦距之間形成一道正立放大的虛像。什麼是虛像呢?即物體的光經過反射而映入眼中的,光與光之間不能形成交匯,但人眼下意識覺得光是直線傳播的,所以會自動反向延長光線,使其交匯於一點,從而形成虛像。
93ae07a85c86f41df43957b07bf7d0d5圖六,圖片來自光學影像與鏡頭
VR 的原理和人眼一樣,利用瞭凸透鏡的作用。通過在人眼和屏幕間放置一塊凸透鏡,屏幕放置於透鏡的一倍焦距內,使其在 2 倍焦距出形成瞭屏幕內容的虛像,根據 B 站 Up 主消失的模因推算,大概是 280 英寸的巨幕大屏。
圖七,圖片來自 Up 主消失的模因視頻截圖
由於凸透鏡的作用,屏幕的成像距離也被調整,如 Quest 2 的像距在 1.3 m,已經能夠滿足人眼的觀看范圍瞭。
不過,由圖六可知,人眼與透鏡、透鏡與屏幕間,都需要保持合適的距離。如果透鏡離人眼過近,像距也會被拉近,從而不能滿足人眼的觀看范圍。如果透鏡過遠(仍要小於焦點),那整個設備的體積又會增大。
透鏡的距離也影響著 FOV 的大小。這裡要再稍微解釋下 FOV 的概念,一般我們所談論的都是水平 FOV(field of view),是指屏幕被透鏡折射,最頂部和最底部的兩道光線射入人眼所形成的夾角。FOV 越大,人在屏幕中所看到的虛擬視野就越大。但問題在於,想要增加 FOV,要麼把透鏡後移,讓其更靠近人眼,或者增加鏡片的厚度。透鏡後移,會導致像距被拉近,不能滿足人眼的觀看需求;增加鏡片厚度,又會導致設備整體過重,並且同樣的,像距依然會有問題。
實際上,FOV 並不是越大越好。現實世界中,人正常聚焦的視野范圍一般在 110°,如果物體出現在 110° 外,人一般要轉頭去看,增加疲勞度。所以,隻要保證 FOV 在 110° 左右,其實也就夠瞭。另一方面,透鏡所呈現的放大版屏幕,實際上是原來屏幕的投射,屏幕分辨率是沒有變的,FOV 越大,對屏幕分辨率要求就越高,差的屏幕甚至能看到像素點。從工程學而言,找到 FOV 同屏幕、透鏡厚度、設備整體尺寸的平衡關系,才是實際的難點。
在實際工程中,透鏡的演變,或者說 VR 中光學方案的演變,大體可以從非球面鏡片到菲涅爾鏡片,再到 pancake 折疊光路。
圖八,圖片來自網絡
一般的球面鏡片,鏡面各處曲率相同,所以光從鏡片折射出來,會聚焦在不同的位置,也因此導致模糊和外圍失真的情況,這種現象被稱為球面像差;非球面鏡片就是在球面鏡片的基礎上,改變表面的曲率,使得折射出來的光能夠匯聚在一點上。這樣,球面像差的問題就能得到緩解或消除;但非球面鏡片有個問題,它太重瞭。
於是菲涅爾鏡片被搬到瞭 VR 中,簡單來說,透鏡的主要作用是為瞭折射光線,而透鏡中存在一部分區域不折射光線,既然如此,直接把這部分拿掉,也完全不影響透鏡的功能。菲涅爾憑著這樣的方式,減瞭一波重量。
但菲涅爾鏡頭各處曲率不變,焦距無法進一步被壓縮,整體仍然較重,VR 眼睛也無法做得輕薄;同時由於曲面不連續,成像精度受限。非球面和菲涅爾鏡頭,都是采用平行光路的方案(光從透鏡中透出,進入人眼)。想要再輕薄,目前最佳的實踐是采用折疊光路(拉近焦距,通過多重反射進入人眼,既縮小焦距又保證成像)。
pancake 的名字也反映出瞭它的結構,就是像餅幹一樣的四層鏡片(各傢有不同,如果用 micro led 會有五層),它的光學原理不必深究(反正也搞不懂),隻需記住它的解決方案是通過折疊光路使得焦距近一步被壓縮。
焦距被壓縮,其實不單改變厚度,也改變瞭視場角,近大遠小,焦距變短,那視場角就會變大。當然這隻是理論上的(理論上限 pancake 可達 200°),現實中由於工藝的問題,pancake 方案的視場角還沒有菲涅爾廣,在 60 - 90° 之間,而菲涅爾可以達到 100° 左右,當然,離人眼的 120° 還有一段距離。
當然,pancake 也有自己的問題,因為有兩次反射的原因,理論上 pancake 的入射光線亮度隻有一開始的 25%,這就要求光源本身得很亮。同時由於多路反射,容易出現鬼影的情況,對工藝要求很高。但這些都是可解決的問題,平行光路有它的上限,如果要塑造沉浸感 + 便攜的設備,折疊光路還是更好的方案。由於 pancake 「損光」的特性,屏幕亮度就顯得尤為重要,目前主流的搭配仍然是 Fast LCD + Mini LED 背光+ Pancake,但更理想的方式是 Micro OLED + Pancake,相比於傳統 LCD 的 500 尼特亮度,Micro OLED 的亮度可達 1000-6000 尼特。
另外值得一提的是,既然是折射,畫面一定會失真。現行的光學方案都是先讓屏幕中顯示的畫面先失真(桶形畸變),再通過透鏡折射恢復正常(透鏡會通過枕形畸變將桶形畸變的圖像恢復正常)。
圖九,圖片來自 POMEAS
如果說凸透鏡解決瞭近眼成像和視覺放大的問題,那麼還留存著一個尚待解決的問題:深度感知。這也是實現 VR 沉浸感的關鍵。
解決方案其實再簡單不過,隻需在透鏡前放置兩塊屏幕(或一塊屏幕隔成兩塊),分別呈現同一圖像的不同成像角度即可。
圖十,圖片來自網絡
人眼是個非常神奇的存在,本質上當我們看向三維物體時,左右眼看到的其實是同一物體的不同角度的平面成像圖像。當兩種不同角度的圖片到達人腦後,人腦內置的視覺算法可以自動將兩張平面圖片合成一張立體圖片。
VR 成像,由於所有的內容都隻呈現在屏幕上,而屏幕是平面的,所以無法像真實的三維物體一樣,由於視差(兩眼看到的角度差異)的存在而感受到立體感。所以,一不做二不休,幹脆在兩塊屏幕上呈現同一物體的不同成像畫面,利用大腦的自動合成功能,模擬立體感知。
雖然,雙目視差的機制讓 VR 眼鏡能夠模擬三維影像的立體感。但沉浸感除瞭立體,還有對於深度信息的感知。簡言之,怎麼區分物體離我們的距離。
人眼感知世界的方式,主要依靠四種機制:
其中,雙目匯聚、單眼匯聚和大腦補充都能幫我們感知到世界的遠近信息。在日常感知中,大腦補充其實是最為常見的體驗,因為我們在觀看視頻時,視頻畫面本身是 2D 的,可我們卻能從中判斷出物體的遠近,很重要的原因就是大腦補充。
大腦補充,簡言之即人腦根據經驗的總結,通過一些畫面線索進行的距離判斷,比如近大遠小(學名仿射)、遮擋關系(近處遮擋遠處)、光照陰影、紋理差異、先驗知識(比如飛機和風箏同樣大,但飛機比風箏遠)。這些知識學過畫畫的同學不會陌生。
雙目匯聚(vergence),簡單理解,是指兩隻眼睛看向同一物體,這個過程需要轉動眼球肌肉,使得雙眼聚焦同一物體。當物體靠近或遠離眼睛時,匯聚角(圖中所示的夾角)也會變大縮小,同時眼部肌肉會收縮或放松。也即,通過感知匯聚角的范圍和睫狀肌的緊張程度,人眼可以分辨物體的遠近。
圖十一,圖片來自 Relative contributions to vergence eye movements of two binocular cues for motion-in-depth
單眼調節(Accommodation):眼睛依靠睫狀肌進行聚焦控制,越靠近人眼的物體,成像會越模糊,通過模糊程度判斷物體的遠近。當眼睛聚焦在近處物體時,遠處物體會模糊;相反,當聚焦在遠處物體時,近處物體會模糊。單眼匯聚隻依靠單眼即可判斷,一個典型的實驗是:閉上一隻眼睛,左右手分別豎起一隻手指,與眼睛呈一條直線。當眼睛聚焦於近處手指時,遠處手指模糊;反之亦然。本質上,單眼匯聚和雙目匯聚是一體兩面的存在,前者告訴大腦物體離人眼的絕對距離,後者告訴大腦雙眼視線形成的絕對角度,兩者都是在物理上可測量的。
VR 中的遠近信息傳遞,主要運用瞭大腦補充,但因為屏幕的距離是固定的,透鏡的距離也是固定的(pancake 之前),所以雙目匯聚和單眼匯聚的信息是缺失的,而這也直接導致瞭所謂的 VAC 問題。
在真實世界中,人眼的匯聚距離和調節距離應該是一致的(觀看遠處物體時,眼睛聚焦到遠處;觀看近處物體時,眼睛聚焦到近處),反映在物理層面則是控制眼球轉動的眼部肌肉和控制聚焦的睫狀肌同步運動 。但 VR 中,由於像距是固定的,因此無論觀看畫面中的遠處或近處物體,眼睛都隻能聚焦到屏幕上,這時,雙眼肌肉與睫狀肌便不再同步瞭。
58e89e6b8f45e977156075f3da0acd8d圖十二,來自維基百科
一般而言,有兩種方式解決 VAC 問題。一種是光場技術, VAC 的本質是由於屏幕不含深度信息,而采用腦補的方式進行模擬,從而導致瞭眼部肌肉與睫狀肌的不協調。那如果讓屏幕發出的光,一開始就不相同(比如畫面中的遠景發 A 光,近景發 B 光),人眼就可以獲得深度信息,問題就得以解決瞭。另一種方式是通過可變焦距 + 眼動追蹤解決(第三部分會詳述)。眼動追蹤確定用戶的註意焦點,通過可變焦距實時改變焦點處的焦距,進而改變成像距離,使得會聚距離與調節距離保持一致。
目前光場技術還不成熟,而業內已采用的 pancake 方案可以實現多重變焦,有望在第二種方案上實現突破。
以上我們所討論的僅僅是靜態的呈現,而真實世界是動態的,我們每時每刻都在與世界本身交互。因此,盡管靜態的 VR 世界已經如此龐大,我們仍然不能停下來,駐足欣賞此刻的成果,更艱難的事情在於從照片到影像的躍升。請繼續保持耐心。
試想,當我們觀察現實世界上,我們會移動,轉頭,於是我們看到事物的不同角度和大小。當我們靠近,聲音變強,畫面變大;當我們遠離,聲音減弱,畫面變小;當我們圍繞物體,則看到它的側面。正是詩中所言:橫看成嶺側成峰,遠近高低各不同。
有一個專業術語,DOF(degrees of freedom),用於衡量人活動的尺度。如果把空間分為 X,Y,Z 軸,則一共可以包括六種移動方式:沿 X、Y、Z 平移;沿 X、Y、Z 旋轉。所謂的 6 DOF,其實便是指包含這六種情況的活動類型。
圖十三,圖片來自網絡
VR 空間中,本質上所有的信息都隻是投射在眼前兩塊屏幕上的平面信息,遠近、側面並不存在。所以它其實是模擬用戶發生相應活動後的視覺呈現效果,直接投射如人眼。比如當人靠近某個物體,屏幕畫面會放大;轉頭就能觀察整個空間的全景,不是用戶真的來到另一片空間,而是算法根據用戶的當前活動判斷,並進行實時渲染。
目前的算法,主要是以頭盔的活動情況為標準,通過 IMU 和 追蹤攝像頭進行空間定位。空間定位是 VR 的核心之一,因此有必要具體闡述。
IMU,全稱為 Inertial Measurement Unit,翻譯為慣性測量單元,一般指測量物體角速率和加速度的裝置。我們經常看到,一個名詞 MEMS 與 IMU 伴隨出現。MEMS 全稱 Microelectromechanical Systems,翻譯為微機電系統傳感器,指內部結構在微米級別的傳感器。MEMS 有很多種,比如 MEMS 加速度計、MEMS 陀螺儀。
MEMS 和 IMU 是兩個獨立的概念,並不存在包含關系,不過兩者存在交集。比如上面提到的 MEMS 加速度計 和 MEMS 陀螺儀,既屬於 MEMS ,也屬於 IMU。
一般而言,IMU 又包含三種傳感器:加速度計、陀螺儀和磁力計。
加速度計:: 一般為三軸加速度計,檢測物體在 X、Y、Z 三軸上的加速度,經過積分換算,從而確定位移距離(實際上這樣確定位移不太準,加速度計算位移是靠積分換算,本身就有誤差,多次積分會導致誤差累計,最終的位移距離會出現漂移)。
陀螺儀:: 一般為三軸陀螺儀,檢測物體在 X、Y、Z 三軸上的角速度,根據角速度推算物體當前的角度。
磁力計:: 又稱電子羅盤,一般為三軸磁力計,檢測物體在 X、Y、Z 上的磁分量,計算得到最終的磁向量,經過算法糾偏,最終得到地磁北的方向,從而確定物體的所在方向。
市面上的一些叫法,如六軸陀螺儀,其實是三軸加速度計+三軸陀螺儀;九軸陀螺儀,則是三軸加速度+三軸陀螺儀+三軸磁力計;十軸陀螺儀,是在九軸陀螺儀的基礎上再加一個氣壓傳感器,獲得海拔高度,從而獲得物體的高度。
在 VR 的應用場景中,一般采用九軸陀螺儀,實現 3DOF 的檢測(Roll 、Picth、Yaw 三種動作,見圖十二)。但光靠 IMU 無法檢測到平移的動作(沿三軸平移),一般還需要輔助攝像頭等其他設備。
這裡要談到技術路徑的演變,最早的平移定位,采用的是外部定位方式,直到一體機的風潮愈烈和 SLAM(空間定位算法)的發展,才漸漸轉為內部定位。不過在一些要求超高精度的環境下(比如虛擬場館或動捕),都還是采用外部定位的方法。
技術路徑的演變,從 Outside-in 到 Inside-out。
本質的區別,Outside-in 是在外界空間中有一套錨定的裝置,構建一個相對坐標系。通過裝置與 VR 設備的互動,檢測頭盔和手柄的當前位置。在由外而內的系統中,多個固定的外部攝像頭用於跟蹤頭戴顯示設備的姿勢(3D位置和3D方向)。外部攝像頭跟蹤位於頭戴顯示設備和控制器(如果有)上的一組參考點。
Inside-out,是依靠光學追蹤,在 VR 頭盔上安置攝像頭,讓設備自己檢測當前外部環境的變化,再經過 SLAM 算法(Simultaneous localization and mapping)計算出當前的空間位置。
1.2.1 Outside-in
Outside-in 路徑中,最有名的有兩種技術方向: - Cculus 的 Constellation 紅外攝像頭定位系統; - HTC 的 Lighthouse 定位;
先說 Constellation,Oculus 的頭盔和手柄上都佈滿瞭紅外傳感,以固定模式閃爍。房間中佈置瞭紅外攝像機,攝像機以特定頻率拍攝頭盔和手柄,由此得到一組圖片,並得到這些紅外的點的特定坐標,由於頭盔和手柄的三維模型是已知的,通過 Pnp 求解(可以理解為一種復雜的數學計算)能夠得到點的 6 DoF(加上 IMU 後)。
圖十四,圖片來自 GamesBeat
至於用紅外,則因紅外波可以規避大部分顏色的影響,不會出現誤判。但紅外容易被遮擋,所以在空間中要佈置多臺紅外攝像機,才能準確判斷三維信息。實際上,Optitrack 和 Zero Latency 用的都是同樣的方案,隻不過 Zero Latency 用的是可見光,更容易受到顏色等噪聲幹擾。
主動式紅外光( Constellation)主要受到攝像頭精度(因為根據圖像判斷)和光學算法的影響,同時價格昂貴,佈置也比較麻煩,在移動浪潮下不太適用瞭。
另一種則是 Lighthouse 定位,室內安置瞭兩臺激光發射器,安放在房間對角,而在頭顯和手柄上有 70 多個光敏傳感器。激光發射器從水平和垂直方向掃射空間,發射器為 0 度時,開始計時,激光到光敏傳感器時,光敏傳感器記錄到達時間。由於發射器的旋轉速度是已知的,所以根據時間和轉速能夠計算光敏傳感器相對發射器的角度,一次掃描完成後,就可以進行空間定位。
圖十五,圖片來自 HTC VIVE LIGHTHOUSE CHAPERONE TRACKING SYSTEM EXPLAINED 視頻截圖
相比紅外,Lighthouse 的方法方便很多,沒有那麼多光學計算,誤差和延時都有所保證,可以達到 20ms 以內。但激光掃描區域一般在 5 * 5 * 2 m 范圍內,如果要擴大,需要多個燈塔,這時候多空間的融合又會出現算法問題。為瞭實現定位,光敏傳感器需要區分不同來源的激光,而光塔過多也會相互幹擾。
另外,Lighthouse 在安裝和成本上仍然要比 inside-out 高,但延時性低,精度高,在需要特別擬真的環境仍然需要這種技術。
1.2.2 Inside-out
Inside-out,主要通過攝像頭拍攝周圍的畫面,通過圖像識別判斷房間景物的一些特征點,通過與上一次拍攝時的特征點位置進行對比,從而得到特征點的位移。與此同時借助 IMU 得到輔助數據,通過算法得到頭顯的位移情況。同樣,在手柄上存在一些小白點,攝像頭也通過捕捉小白點的位移判斷手柄的變化情況。
因為是可見光識別,所以房間內得保持一定的亮度,不能關燈。
此外,因為依靠攝像頭識別外部的標記點,如果角度識別精讀差異 1 度,整個距離可能偏移幾厘米,Inside-out 對精度要求十分之高。又由於需要計算圖像顯示,所以它的延時沒有辦法像 Lighthouse 一樣低。
Inside-out 主要依靠 VGA 攝像頭和深度識別攝像頭進行 3D 空間定位。VGA 攝像頭,配合深度識別攝像頭,主要用來做頭部空間定位和手勢識別。VGA 是指的 VGA 格式的分辨率,640X480 ,黑白。深度識別攝像頭,主要用來識別物體的距離(實際上也可以識別骨骼點,但不需要),主要有三種技術:
TOF:原理是傳感器發出經調制的近紅外光,遇物體後反射,通過計算光線發射和反射時間差或相位差來換算被拍攝物體的距離。
單目結構光:該技術將編碼的光柵或線光源等投射到被測物上,根據它們產生的畸變來解調出被測物的三維信息;
雙目結構光:和人眼一樣用兩個普通攝像頭以視差的方式來計算被測物距離;
有瞭空間定位,VR 可以實時渲染出對應的畫面結果。然而人不止和世界交互,也要和人交互。試想,如果我們想要在虛擬空間中同傢人,親朋好友交流,那麼我們勢必需要看到他們的神情,這其中最重要的便是面部表情和眼神。
a1f7f9f79dfa2194eacec63b8fcd964b圖十六,圖片來自 MARK ZUCKERBERG: FIRST INTERVIEW IN THE METAVERSE | LEX FRIDMAN PODCAST 視頻截圖,圖為 ZUCKERBERG 和 FRIDMAN 在 VR 世界中的面部重建
面部識別主要靠攝像頭,放在頭顯內部,追蹤如額頭、下巴、臉頰的變化情況,追蹤原理和空間定位差別不大。一般可以用在如下的場景下:
面部識別存在的問題是,當戴上頭顯時,人臉 60% 的地方是被遮住的。Magic Leap 的想法是,雖然有的地方被遮住,但可以根據周圍未被遮住的肌肉變化來推測。當然,越多的攝像頭還是更有助於捕捉真實表情。Oculus 在訓練面部識別時,用瞭 9 顆攝像頭,隻是到瞭消費級,才用 3 顆攝像頭並配合 9 顆攝像頭訓練出來的算法進行面部追蹤。
眼部追蹤主要靠眼動追蹤攝像頭。眼動追蹤的原理是利用光攝入瞳孔反射到角膜的原理,測算角膜和瞳孔的距離來判斷眼動的情況。VR 的眼部周圍有一圈紅外光 LED 燈,向眼睛發射紅外光,光從瞳孔反射到角膜上,攝像頭拍攝圖像,判斷瞳孔和角膜的位置,從而判斷眼動的情況。
眼動追蹤帶來的益處很多,除瞭眼神與渲染的人物同步,最熟知的是眼動交互,和手勢交互一起可以帶來自然的交互體驗。另一個重要的好處在於,人類的視力在整個視野中並不均勻。中央凹是視網膜的中心區域,視力最好。在中央凹區域外,視力逐漸下降到視網膜邊緣。這樣,實際上畫面的渲染隻需要關註到視線聚焦處,這樣可以降低計算渲染成本。此外,有瞭眼動追蹤後,VR 的瞳距可以根據佩戴者的身份自動調節;在運營層面,可以根據眼睛聚焦情況進行數據分析。
還有一個隱藏的好處,主要是體驗層面。VR 中的 3D 成像效果,是通過向每隻眼睛顯示一個獨特的 2D 圖像來創造 3D 感覺,其中每個圖像的渲染略有不同,以產生雙眼視差,從而帶來 3D 效果。但是,用戶眼睛和圖像之間的距離(也即顯示屏與人眼的距離)是固定的,所以實際上會導致眩暈問題,也就是所謂的視覺匯聚調節沖突(VAC)。通過眼動追蹤 + 變焦顯示器,VAC 可以得到緩解。 變焦顯示器使用眼動追蹤來主動跟蹤眼睛的會聚,並使用具有可變焦距的聚焦元件來匹配眼睛的會聚。至於變焦技術,主要是機械式變焦(電動齒輪,改變鏡頭和物體、視線焦點的距離)。
有瞭面部表情和眼動追蹤外,我們還需要手勢識別,以進一步與虛擬世界交互,比如拾取、點擊,或隻是簡單的 say hello。手勢識別所用的攝像頭和空間定義一致,都是 VGA 攝像頭,識別原理類似。
手勢識別主要的難點在於:一般攝像頭的視場角都講究水平,垂直視場角的高度不夠,所以手跑到攝像頭的視線范圍之外就很難辦。而在人類大部分的自然任務中,手都是處於下視野的范圍,手勢追蹤的實際難度會很大。另外,根據對照實驗,采用手勢追蹤的任務效率,會低於直接用手部控制器的方式,一是因為延時,二是因為純手勢交互缺乏觸覺提示和反饋,而人需要後兩者以定位操作對象。Apple vision Pro 通過手眼融合的方式,提供瞭一種視覺反饋,變相彌補瞭下純手勢交互的問題。此外,它還配瞭六顆攝像頭(一般是 4 顆),其中兩顆專門垂直向下以捕捉下視野的手。
如果說空間定位和面部、眼動追蹤是與虛擬世界交互。那麼 VR 很快有瞭一個更大的野心:升級成 XR,捕捉現實世界的動態。全彩透視,使用 VST RGB 攝像頭,用於捕捉帶著 VR 頭盔的用戶所看到的真實景象。VST 指 vedio see through,RGB 是圖片顏色格式。VST 原先都是黑白的,用來看周圍空間,現在成瞭 MR 的入門券。無心插柳柳成蔭,原先是為瞭讓用戶能夠看到周圍的真實空間,以確定活動范圍的透視,卻悄然一變,變成瞭與 AR 類似的功能。
不過囿於成本,VST 也沒有全部采用全彩。如 Quest pro 用 VST,兩顆黑白鏡頭建場景,一顆 RGB 攝像頭用來補色,不過現在也出現瞭雙目的 RGB,體驗越來越好。
VST 要註意三點:
其實,雖然 VR 推出瞭全彩透視的功能,但並不意味著 VST 一定要放在一體機上,那樣相比於 AR 並沒有太大的優勢。如果拿 PC 和手機類比 VR 和 AR,VR 是 PC 的延伸,承載的是重活,而 AR 更擅長可移動的小場景。VR 在肉眼可見的未來,很難達到出街的可能,VST 的作用僅僅是傢庭活動,例如遊戲、音樂、繪畫。
圖十七,Hauntify Mixed Reality 讓鬼出現在傢中真實房間
VR 的 VST 中,真實世界的元素更多成為一種背景,增加活動本身的樂趣,但卻不是主體。試想,如果 VST 和 VR 主機分離,VST 作為 VR 的配件,可以配置到工廠、醫院,通過無線傳輸實時渲染,那是否能夠真正實現數字孿生?而 VR 也將真正闖入工業級的應用。
旅程到這裡,其實已經結束瞭。VR 的核心就是光學方案和空間定位,以及基於此的渲染和定位算法。不過,為瞭方便讀者後續閱讀某些拆解報告時,對上述內容外的一些概念不太瞭解,特在最後一章附上相關的名詞解釋。
這應該是我自《張小龍 22 年》後寫的最長的文章瞭,無論是字數還是時間。寫長文不容易,記得當時寫張小龍的時候,大概花瞭一個星期,雖然在微信上沒發出多久就被騰訊封瞭,但在 pmcaff 上還有留存(鏈接放在瞭參考中),並得到瞭池建強老師的推薦,也算滿意瞭。
寫這篇文章,比寫人物要困難多瞭,太多的專業術語,以及技術理解。原先我以為自己懂瞭的概念,其實真正串起來,又延伸出許多枝蔓,又一點點去查。好在有 perplexity 的幫助,簡化瞭我的一些工作量。不過寫作的樂趣正在於此,它是一座迷宮,有時隻想理解一個概念,又牽扯到另一個概念,概念與概念之間的關系又引發瞭新的著迷。有一些很不錯的信息源在此過程中也被發現,例如雷鋒網的 VR 專題、知乎上胡癡兒的早年回答,以及 B 站 Up 主消失的模因的精彩視頻。可惜,前兩者已經不再更新瞭。
當然,最驚喜的是終於發現瞭一本介紹 VR 全貌的書籍,《The VR Book》,雖然成書於 2016 年,但作者功力深厚,仍然不失為理解 VR 的最佳材料之一。
這篇文章,大概可以 2 個月以來,對 VR 的研究結果,是給自己一個交代。裡面一定有諸多問題,受限於自己當前的見識,有所偏頗,但第一步既已踏出,便可以在後續的學習道路上增刪改查,可謂是寫完後最大的收獲瞭。我想,在消費電子業無聊的狀態下,有一件有意思的事物可以研究,便很快慰瞭。
參考:
上一篇
下一篇
本文作者:Jump裡維《巫師3》終於在本周登陸瞭NS,這款遊戲最初於2015年發售,受到無數玩傢的贊譽,也斬獲瞭包括年度遊戲在內...