首頁 財經 > 正文

蘋果公開的秘密!萬字解密Vision Pro 17項專利

智東西


【資料圖】

作者 | 周炎

編輯 | 云鵬

這半個多月以來,關于Vision Pro的消息可謂“冰火兩重天”。

先是傳出Vision Pro開發(fā)者實驗室冷清,開發(fā)者興趣不大。后有庫克在財報電話會上為自己產品站臺:我每天都用Vision Pro,體驗者用了都說好。近期,知名近眼顯示專利專家對Vision Pro功能演示中虛擬屏代替物理屏提出質疑,稱“太荒謬”,文章還獲得很多行業(yè)人士的支持。

Vision Pro亮相之后,雖然許多數碼博主和Vision Pro開發(fā)者都搶先體驗了它,并發(fā)表了體驗感受,但僅憑這些還是回答不了關于產品的疑問,總是有點“隔靴搔癢”的意味。從數千項專利中找答案,看清蘋果的深層玩法和布局,遠比激烈對線更有價值。

就在一個月以前,蘋果公司的人機界面設計副總裁艾倫·戴伊(Alan Dye)接受采訪時稱,設計團隊為Vision Pro申請了5000項左右的專利,同時,在研發(fā)過程中,最難就是在專利公開的情況下設計Vision Pro。

目前每周仍許多有關于Vision Pro的專利流出,這些專利有的解答人們對于發(fā)布會上某些功能演示中存在的疑惑,還有的徹底放飛了大家的想象力,原來一款產品未來還可能會讓人“聞到花香等各種味道”。

這也不禁讓人思考:設計團隊在專利中為Vision Pro埋下了哪些伏筆?Vision Pro又是否實現了蘋果“最初的夢想”?

智東西通過對Patently Apple網站中有關Vision Pro的專利深扒后發(fā)現:原來看著簡單兩指指尖互相觸碰實現的手動控制原來需要相機對手部各個關節(jié)端的識別;實現人物自動淡入、淡出的EyeSight功能使用了具有支撐結構的紅外透明單向鏡;來實現3D攝像,需要先讓相機的POV模擬人眼的POV。

深扒專利為我們的解答的疑問遠不及此,在對WWDC23發(fā)布會演示視頻逐幀回顧后,智東西還發(fā)現,蘋果“精心選擇”了Vision Pro的演示功能,這背后藏著蘋果多年布下的“一盤大棋”。

由于篇幅限制,我們選擇了手動控制、空間窗口、眼動交互、Optic ID、空間音頻、計算機生成現實體驗、空中觀看動作電影、AR體育賽事、沉浸式遠程電話會議、虛擬鍵盤、3D攝影、影像拍攝通知、EyeSight等13項功能演示背后關系最為緊密的17項專利進行一輪“賽博拆機”。

一、微米級分辨率識別手部運動,可用于導航菜單、控制媒體播放

在WWDC23上,最先映入觀眾眼簾的就是Vision Pro的手動控制功能。

蘋果在過去幾年發(fā)布了多項關于微手勢控制Vision Pro菜單的專利,從美國專利商標局的公開信息來看,該專利涉及具有顯示生成組件和一個或多個提供計算機生成體驗的輸入設備的計算機系統(tǒng)。(computer systrms with a display generation component and one or more input devices that provide computer generated experciences),簡單理解就是一種手勢控制裝置。

從目前來看,Vision Pro與手勢結合可用于玩視頻游戲、導航菜單、控制媒體播放等。Vision Pro的計算機系統(tǒng)(computer system)允許用戶使用微手勢來與三維環(huán)境進行交互。

Vision Pro可以識別到對應的指關節(jié)、指尖、手掌中心、連接到手腕的手端等的點。Vision Pro的相機安裝在遠離用戶的地方。微手勢的不同運動和位置以及各種運動參數用于確定在三維環(huán)境中執(zhí)行的操作。由于微手勢不易引人注目,所以可以在公共場合中進行該操作。

目前,Vision Pro的手動控制還無法對實體設備進行操作,因此蘋果還在繼續(xù)研發(fā)智能戒指系統(tǒng)(smart ring system)。

從目前蘋果的專利信息來看,該戒指具有包括滑動、點擊、旋轉等在內的16種交互方式。戒指中的傳感器可以感知到用戶的指令信息,然后根據指令控制虛擬物體和現實物體的交互。

同時需要明確的是,專利僅僅是技術保護的一種手段,這并不意味著蘋果會在短期內推出智能戒指產品,但從該專利為未來可能的交互方式提供了新的可能性。

二、XR系統(tǒng)檢測頭部運動,用戶可操控跨平臺虛擬現實應用

如果說,上一個專利與識別手部運動有關,那么這個與Vision Pro頭顯的3D“無限畫布”(infinite canvas)有關的專利就與識別頭部運動有關。

蘋果早在2022年12月就申請了這項專利,并于今年6月在歐洲發(fā)布。從蘋果的專利描述上看,Vision Pro的混合現實(XR)系統(tǒng)可以檢測頭部運動,并相應地調整呈現給人的圖形內容和聲場。

從功能的角度,該專利可以理解成“空間用戶界面自動切換裝置”。

上圖是真實和虛擬組件的分層在Vision Pro內呈現完成的增強現實(AR)視圖。根據蘋果的說法,對于每一個用戶界面(UI),頭顯都會分配一個邊界,該邊界定義了某個用戶界面應該處于的物理環(huán)境。

從上圖來看,Vision Pro頭顯系統(tǒng)的相機(camera)和傳感器( sensor)會將捕捉到的信息傳輸到Vision Pro中的合成引擎( composting)和操作系統(tǒng)(application)之中。

接著應用程序會向操作系統(tǒng)發(fā)送請求(request),然后操作系統(tǒng)接著會反饋給應用程序哪些是受限制的信息(constrained information)。

隨后,操作系統(tǒng)會將處理好的場景信息、各個應用程序也會將應用數據傳送到渲染引擎(rendering engine)之中。渲染引擎將加工好的信息傳送到合成引擎之中,與最初由傳感器和攝像機捕捉到的信息進行最終合成,最終各個應用程序界面就會顯示在用戶面前。

三、多單元區(qū)計算用戶凝視端點,用戶眼動控制空間物體

除了手動識別、頭動識別、Vision Pro還能針對眼部運動進行識別。產品評論家Marques Brownlee在看到Vision Pro的產品稱,你一旦開始使用Vision Pro后,一定會關注它的眼動追蹤功能(eye tracking),“我通常不會評價科技產品的功能為“魔法”或者“超現實”,但是這是我接觸過最接近魔法的事情?!?/span>

從美國專利商標局的公開信息來看,Vision Pro的眼動追蹤功能和一項“用于注視端點確定的方法和裝置”的專利有關。該專利可以用于確定主體在空間中注視三維物體的端點。聽起來似乎很復雜,事實上就是一個“眼動控制裝置”。

該專利將用戶頭部及其周圍環(huán)境定義為一個系統(tǒng),并將其分為了多個單元區(qū),其中包括眼睛跟蹤單元、頭部跟蹤單元、3D場景結構表示單元(3D scene structure representation unit)、計算單元等。

Vision Pro會追蹤用戶的眼睛的注視方向,頭部、眼部跟蹤單元相對于整個參考坐標系的位置和取向,接著,Vision Pro在就會在3D場景結構表示單元中,通過參考坐標系中的坐標通過真實世界場景中對象的3D位置及其3D結構來表示真實世界場景和場景中包含的對象。最后,計算單元會基于用戶眼部的凝視方向、眼動儀的位置、3D場景結構表示等來計算出用戶的凝視端點。

四、傳感器捕捉用戶虹膜信息,用戶可通過Optic ID進行識別

8月初,Vision Pro虹膜生物識別系統(tǒng)Optic ID背后的專利也“浮出水面”。

從蘋果的描述來看,這項專利可以理解為“生物信息辨識算法”,Vision Pro的攝像機可以用于捕捉用戶的虹膜、眼睛、眼眶周圍區(qū)域的生物特征圖像,然后攝像機中的控制器(controller)上執(zhí)行的算法可以動態(tài)地確定這些被捕獲的圖像中哪個可以用于生物識別認證。

Vision Pro攝像機中控制器選擇圖像的客觀標準包括:圖像的曝光度、對比度、陰影面積、清晰度、是否有遮擋物體、是否有反射光等。

五、幾何聲學模擬現實聽覺刺激,觀影時空間音頻更加真實

在結束身體部位識別板塊后,想必大家在觀看WWDC23時,都會對上面動圖中演示的“空間音頻”的功能有所印象,同時因為沒有親身體驗過“空間音頻”,所以并不清楚“空間音頻”會如何提高沉浸感。

傳統(tǒng)上,當聲音沿間接路徑傳播時,耳道入口接收到的聲學信號中可能會存在偽影,通過使用空間音頻濾波器的信號處理算法,可以將用戶特定的偽影合并到雙耳的音頻中去。

為了實現準確的空間音頻再現,虛擬音頻系統(tǒng)可以使用HRTF來創(chuàng)建聲音來自空間中某處的錯覺。聲音可以使用射線進行追蹤,這種方式被稱為幾何聲學(GA),幾何聲學的方法可用于模仿合成聲波的某些現實行為帶來的聽覺刺激。

目前的空間音頻合成軟件可以管理實時模擬移動接收器周圍的移動聲源的計算負荷,然而,這些模擬往往是基于靜態(tài)混響的,在現實世界的場景中,聲波和反射性/阻礙性表面之間存在著顯著的相互作用。房間的建筑或場景構成中的每一變化都會對房間里的聲波在任何給定瞬間的實時模擬方式產生重大影響。

這就需要改進虛擬三維環(huán)境中的實時物理聽覺化技術,這包括其中任何(或全部)的環(huán)境:聲源、聲音接收器和虛擬環(huán)境中的幾何/表面可能在聲源被模擬時的動態(tài)變化。

蘋果的這項專利可以理解為“位置追蹤與動態(tài)音頻調整系統(tǒng)”。

當用戶走到虛擬空間中的哪個位置,都能聽到實時處理的遍布于空間內擬真的聲音效果,這些聲音會根據空間內物體位置、甚至材質,以及實時移動的人產生變化,從而更加真實。

六、生成用戶化身,支持計算機生成現實體驗

在觀影的過程中,除了空間音頻帶來的沉浸感,Vision Pro可為用戶帶來計算機生成現實(CGR)體驗,在提供CGR體驗之前,需要了解用戶的姿勢。一些CGR體驗呈現模仿用戶行為的用戶化身,如果用戶移動身體的一部分,化身就會移動相應的部分。

從FIG18可以看到,Vision Pro的傳感器可以對用戶身體的姿勢及其進行捕捉,然后分別在用戶的左肩、右肩、上下左右臂、軀干、左右腿等位置進行定位,Vision Pro會將這些身體姿勢信息反饋到用戶的神經網絡訓練系統(tǒng)中,然后用戶會產生計算機生成現實體驗。

這項技術是通過蘋果去年收購以色列公司Camerai引入蘋果的。

七、識別用戶內耳前庭感知到的運動,減小飛機場景觀影眩暈感

WWDC23上,蘋果的視頻預告片中展示了用戶如何在飛機上佩戴Vision Pro觀看電影。

要知道,一般情況下,當身體運動和視野所觀測到的運動不匹配或者頭部運動和視覺觀測的頭部運動不匹配時,人很容易產生暈動癥。而當用戶在空中佩戴VR/AR頭顯時,由于飛機顛簸,以及VR/AR頭顯顯示的視野太窄或各種追蹤功能緩慢/不準確,身體運動、頭部運動與VR/AR頭顯觀測到的事物容易產生不匹配的情況,從而導致定向障礙和惡心。

近眼顯示專家Karl Guttag在其創(chuàng)辦的科技網站KGOn Tech給出了更加細致的分析,Karl Guttag稱,人眼視場角內分辨率最高的區(qū)域(視網膜中央凹)其覆蓋范圍僅為2度,使用者眼前看到的圖像是眼球通過掃視、跳動等微動作捕捉并拼湊在一起的結果。

在Karl Guttag的分析中可以看到,在通常情況下,人體主要通過三種感官來保持平衡,其中內耳器官的前庭感知(VOR)可識別頭部的方向,以及哪個方向是上下方,如果人眼前看到的運動與前庭系統(tǒng)感知到的運動不相符,那么就容易引起惡心、眩暈等癥狀。

由于AR/VR頭顯主要根據用戶眼球和頭部運動來動態(tài)渲染圖像,顯示的內容可能會導致內耳、眼球檢測到的數據不一致,從而眩暈。R1芯片宣稱可以大幅消除傳感器和顯示器之間的延遲。

Karl Guttag稱,在飛機等長途移動場景中,與前庭相關的暈動問題可能還會加重,因此,Karl Guttag得出結論,Vision Pro還需要識別用戶內耳前庭感知到的運動,才能很好地減少運動癥狀。

巧合的是,蘋果今年6月公布的一項專利顯示,蘋果的確走了一條和Karl Guttag的猜測相同的路。這兩項專利分別可以理解為“運動感知增強系統(tǒng)”和“相對慣性測量系統(tǒng)”。

首先,第一項專利中,Vision Pro通過調整中心凹視區(qū)域(foveated gaze zone)外部的內容對比度或空間頻率(spatial frequency)可以減少暈動病,這種方式也不會像黑掉內容那樣有損與用戶體驗。

具體到實施方式上,蘋果增加了與用戶物理環(huán)境的3D空間相關聯(lián)的內容到凹注視區(qū)域外部。這樣的目前是為了使用戶可以相對于計算機生成現實(GCR)環(huán)境中移動,并且使用戶感知到的運動與前庭系統(tǒng)(vestibular system)感知的信息相匹配。

同時,Vision Pro還會在通過傳感器獲得用戶的生理數據和運動數據等的基礎上,向用戶提供相關聯(lián)的視覺和聽覺體驗。

總的來說,該專利的創(chuàng)新之處在于,在具有處理器的電子設備上,首先確定了顯示器的第一區(qū)和第二區(qū),然后根據第一區(qū)和第二區(qū)生成3D環(huán)境的圖像,識別對應于顯示器第二區(qū)的每個圖像的內容,以及對應于顯示器第二區(qū)的每個圖像的圖像內容的對比度或空間頻率中的至少一個。

上圖列出了用戶瞳孔和瞳孔的視野圖,其中展現了眼窩,即視網膜中心凹下的部分、副眼窩(parafoved)和周邊視覺區(qū)域(peripheral)。

Karl Guttag對于Vision Pro也有疑惑的問題:在長時間空氣不流通的場景下,如果讓人一直佩戴有一定重量、貼臉、且會散發(fā)熱量的頭顯來看電影,體驗感可能并不理想。飛機上的空乘人員、乘客可能會來回走動,每當有人靠近的時候,都可能觸發(fā)Vision Pro的透視模型,打破觀影的沉浸感。

除了調整中心凹視區(qū)域外部的內容對比度,蘋果在今年7月發(fā)布的一項有關相對慣性測量系統(tǒng)(relative inertial measurment system)也對乘坐交通工具時產生的暈動癥的解決有所幫助。

從蘋果的介紹來看,傳統(tǒng)的VR和AR設備無法將用戶身體部分的運動與用戶所處的參照系(reference frame)分離開來。

舉例來說,佩戴傳統(tǒng)VR和AR設備的用戶在乘坐交通工具時,在交通工具從停止狀態(tài)加速直到高速的過程中,用戶并不會在交通工具內進行運動。這樣VR和AR設備顯示的圖像,在用戶看來就像是他正在以相同的速度和方向通過車輛行駛的場景。由于眼前庭不匹配,用戶因此出現惡心等癥狀。

蘋果的相對慣性測量技術可以確定用戶設備相對于非固定參考系(用戶乘坐的交通工具)相對的運動,從而將用戶身體部分的運動與所處的參照系分離。

八、實時跟蹤用戶視覺方向,增加賽事比分信息,帶來現場觀賽體驗

除了提升觀影體驗,蘋果還通過增強現實技術提升觀看體育賽事的體驗。

從蘋果的專利信息來看,沉浸式視頻內容可以通過三維的方式呈現給用戶。根據使用者觀看現場活動的方向和觀看位置的視覺數據,Vision Pro選擇為用戶呈現特定視野或觀察視角的沉浸式視頻內容。同時,Vision Pro中呈現的內容還會根據用戶的移動而不斷更新。

從功能上來看,該專利可以理解為“第一人稱視角沉浸式觀賽系統(tǒng)”。

從上圖來看,體育賽事的視頻內容會通過網絡傳輸到Vision Pro上,經由Vision Pro的通信模塊,一部分信息就會進入數據緩沖區(qū),然后在顯示在目鏡上。另一部分信息會經由處理模塊、以及傳感器顯示在目鏡上。

如果說第一個專利強調增強了用戶對體育視頻內容的沉浸感受,那么第二個專利則為用戶實時提供體育賽事現場情況信息,可以理解為“體育賽事視覺增強系統(tǒng)”

將時間倒回2022年6月,蘋果和美國職業(yè)足球大聯(lián)盟(MLS)宣布,Apple TV應用程序將獨家播放2023以后的每場MLS比賽直播。為了進軍視頻業(yè),蘋果正希望將拓展MLS的呈現方式,使用戶可以在Vision Pro中觀看MLS比賽直播,同時感受到現場比賽的氛圍。

蘋果在專利背景信息中指出,目前用戶已經習慣在電視中觀看體育賽事中隊伍名稱、得分等補充信息,例如,在足球比賽轉播期間,在球場上顯示黃色的先下線,籃球比賽中,比分一般顯示在右下角。

Vision Pro的傳感器可以捕捉物理環(huán)境中的視頻或者圖像,而此時,Vision Pro的顯示器處于透明或半透明狀態(tài),圖像或視頻的光線會通過這層透明或半透明的介質導入眼睛之中。此外,關于體育賽事的補充信息還會顯示在體育賽事的視圖之中。從下圖可以看到,例如“玩家A進球”、“47:46”這樣的場上比分、“射擊速度66千米/小時”等“‘增強現實”內容的信息都會以黃色來突出顯示。

Vision Pro仍然會面臨一些問題。在續(xù)航方面,戶外比賽需要處理大量的實時圖像和數據,對電池續(xù)航和節(jié)能的要求會增加。

在技術方面,如果實現對體育賽事的AR呈現,Vision Pro需要高效處理大量的圖像和數據,以提供給流暢的增強現實體驗。同時,系統(tǒng)的實時跟蹤和定位性能也需要高精度和穩(wěn)定性,以確保在真實世界中的精準重疊。

九、提供沉浸式遠程電話會議功能,支持與多人分享同一主題內容

Vision Pro不僅可以通過“空間音頻”、“增強現實”、“用戶化身”等方式為用戶提供娛樂方面的沉浸感,在工作層面,還可以為用戶帶來沉浸式的電話會議體驗。

該專利可以理解為沉浸式電話會議和遠程呈現系統(tǒng)(immersive teleconferencing &telepresence system)。從美國專利局的信息來看,該專利申請涉及了基于會話描述協(xié)議(session deion)和實時傳輸協(xié)議的程序。

下圖描述了沉浸式電話會議和遠程呈現系統(tǒng)的簡化結構,圖中可以看到,一群同時正在會議室中開會,房間中含有會議桌,以供實際出席的參與者使用。

此外,Vision Pro的相機能夠以相對于相機不同的角度或視場捕獲視頻的多個單獨的相機或鏡頭。當有人并未出現在會議室中,但還是希望加入電話會議。那么會議室中的參與者可以使用屏幕顯示來自個人的共享演示文檔或者視頻流。未佩戴Vision Pro的參與者可以使用iPad和iPhone在遠程來加入會議。

從上圖的105b可以看到,遠程參與會議的人可以使用ipad和iPhone等設備觀看會議室的360度全景視圖,還可以使用ipad或iPhone的手機攝像頭拍攝視頻。

十、虛擬鍵盤“隔空打字”,支持多設備協(xié)同完成文檔內容

與工作場景密切相關的還有Vision Pro虛擬鍵盤帶來的“隔空打字”功能。

查閱蘋果的專利,在過去幾年中,有多個專利涉及到虛擬鍵盤的“隔空打字”功能。蘋果今年3月發(fā)布了一項關于“用戶擴展現實(XR)系統(tǒng)的多設備連續(xù)性”的專利,也就是一種“多設備協(xié)同輸入裝置”。

該專利允許使用iPhone、iPad、Mac的用戶將正在操作的文檔傳輸到Vision Pro之中,允許用戶在擴展現實中完成該文檔。接著Vision Pro可以通過檢測用戶手指運動來進行輸入。

從FIG2中可以看到,iPhone設備將其內容傳輸到Vision Pro上,用戶佩戴Vision Pro后,前方會出現應用程序窗口,其中包括文件管理應用程序(file mgr app)、瀏覽器窗口(browser window)、內容編輯器窗口(content editor window)、媒體播放器窗口(media player app window),iPhone原本輸入的內容可以在內容編輯器窗口查看到。

從FIG5中可以看到,Vision Pro上的攝像頭和傳感器可以捕捉到iPhone的用戶界面,然后Vision Pro中的處理器會將捕捉到的用戶界面生成副本,然后會為用戶重新創(chuàng)建一個文檔,使其可以在Vision Pro所提供的顯示界面中繼續(xù)編輯該文檔。

當Vision Pro接管了該文檔的控制權之后,iPhone的顯示屏可能會關閉或更改為低功耗狀態(tài)。同時Vision Pro還可以在XR環(huán)境中打開多個應用窗口。

蘋果在2020年被授予了一項名為“自適應輸入表面”(Adaptive Input Surface )的專利,該專利與觸敏輸入(touch-sensitive)有關,可以代替具有觸覺反饋的虛擬鍵盤。觸覺反饋可以通過靜電電極的可控陣列提供給用戶,這可以使用戶感知到表面上不同水平的摩擦力。就可以有針對性地進行輸入。同時輸入表面移動感的致動器還會進一步為用戶提供附加的觸覺反饋。

一般而言,這個輸入表面會接近于Vision Pro的傳感器,該傳感器會捕捉用戶手指的位置。

十一、模擬人眼POV,單視場或立體場視圖實時渲染到Vision Pro

最后要講的三部分與Vision的攝像功能和相關的透鏡鏡片有關,其中不得不提的就是Vision Pro的3D攝像功能。

在傳統(tǒng)的VR/AR頭顯中,場景攝像機(scene cameras)安裝在頭顯的前面。但通常情況下,場景攝像機的入瞳以及視點(POV)與用戶眼睛的POV存在很大的偏移,因此,攝像機的POV并不能代表人眼的POV。

因此,為了更好模擬人眼的POV,Vision Pro通過將相機的入射光瞳向用戶的眼睛處移動來校正相機的POV,以更好匹配用戶的POV,從功能的角度,該專利可以理解為“相機POV校正裝置”。

Vision Pro的相機的二維陣列(two-dimensional arrays)可以捕獲眼前真實世界場景的各個部分的圖像,攝像機沿球面曲線或曲面定位(spherical curve or surface),以使攝像機具有不重疊的相鄰視場(FOV)。同時,為了準確表示用戶的視角,Vision Pro相機中的光學器件被配置為使陣列中相機的入射光瞳位于圖像傳感器處所形成相機圖像平面的后面。同時,Vision Pro的相機也在傳感器上形成優(yōu)化的圖像。因此,每個相機陣列都能從與用戶眼睛基本相同的視角捕捉場景的視圖。

在蘋果發(fā)布會的展示中,使用者可以與圖片中場景進行交互一直讓人好奇,從蘋果發(fā)布的專利中可以看到,虛擬現實系統(tǒng)可以向用戶顯示立體場景以創(chuàng)建深度錯覺,并且計算機可以實時調整場景內容。

每個相機按照從物側到像側的順序包括:第一透鏡組,其中包括一個或多個透鏡元件;孔徑光闌(apertue stop)其中包括針孔(pinhole);第二透鏡組,其中包括一個或多個透鏡元件、多個鏡頭元件和傳感器,同時,第一組透鏡組中的透鏡之間的間隙最小或者沒有間隙。

這樣安排的原因是希望使一個場景的光被反射到兩個或多個攝像機上,這些攝像機分別為捕捉場景的各個部分的圖像,鏡子的作用是使攝像機的光圈更接近被攝者的眼睛。所捕獲的圖像經過處理后生成圖像。用戶在由自己的左右眼來查看所顯示的圖像。

而且真正實現3D攝影,這或許還只是入門級的要求。蘋果在2021年4月公布一項關于360攝影和后期制作相關的專利,或許可以更好地解釋Vision Pro如何實現了體驗者們所言的“3D立體景觀”。

蘋果在專利中稱,傳統(tǒng)的180度和360度視頻和圖像都以平面存儲格式(in flat storge formats)進行存儲,同時使用等距柱狀投影(equirectangular projections)或立方投影(cubic projections)來表示球面空間(sphrical space)。如果這些視頻或圖像在傳統(tǒng)的編輯或圖形應用程序中進行編輯,同時當這些視頻或圖像以圓頂投影、立方體或球面映射的方式分布和呈現時,容易出現大量問題。

此外,在對用球面合成或編輯的圖像或視頻進行處理后,容易出現后續(xù)鏡頭未對準或立體視覺不匹配等情況。然而蘋果的專利彌補了這一遺憾。

目前Vision Pro獲得專利會將單視場(monoscopic)或立體180度或360度的靜態(tài)圖像或視頻圖像從主機編輯或視覺效果軟件作為等距柱狀投影或其他球面投影傳輸同時運行的輸入的方法和系統(tǒng)。同一設備上的軟件程序,可以從有線或無線鏈接的頭戴式頭顯的方向和位置數據,并同時將該方向代表的代表性單視場或立體場視圖實時渲染到Vision Pro中。

說到這或許就可以解答如何形成3D立體景觀了,但蘋果并未止步與此,蘋果在專利中還進一步想到了關于Vision Pro拍到的照片和視頻如何進行后期制作,雖然蘋果沒有在WWDC23的預告中展示這方面的功能。

簡單來講,Vision Pro使用GPU緩沖區(qū)來接收圖像數據,同時這個GPU緩沖區(qū)還與媒體操作的應用程序相關聯(lián),可以獲取到顯示設備的方向數據(orientation data),這樣利用獲得的圖像數據和方向數據,Vision Pro的屏幕上就可以顯示出預覽圖像。需要指出的是,當媒體操作應用程序并修改圖像數據時,所述的預覽圖像會被動態(tài)修改。

十二、增加集成板塊,安裝多種傳感器,告知外界頭顯正在拍攝

此前谷歌眼鏡由于會在對方不知情的情況下對其進行拍攝而受到外界的詬病,蘋果在下面這項專利中為Vision Pro增加了集成板塊(integrated part),該集成板塊可以讓外界知道頭顯正在拍攝,簡單來講,就是“傳感器捕捉與指示裝置”。

從專利信息來看,蘋果在Vision Pro安裝上許多傳感器,首先是,三維傳感器,三維傳感器下面又分為多個類別,例如三維圖像傳感器(three-dimensional sensors)、結構光傳感器(structured light sensors),當目標被光束照射產生的光點的三維圖像數據被三維圖像傳感器捕捉到,這時Vision Pro中的相機就會對圖像進行拍攝。

其次,Vision Pro中還有三維激光雷達傳感器(the-dimensional lidar sensor),可以理解為一種光檢測和測距的傳感器(light detection and ranging sensors);三維射頻傳感器(three -dimensional radio-frequency sensors)或者收集三維圖像數據的其他傳感器。

最后還有實現跟蹤傳感器(gaze tracking sensors),其中就包括基于圖像傳感器的視線跟蹤系統(tǒng)。(gaze tracking system based on an image sensor)。

講完了Vision Pro中的傳感器,Vision Pro中的發(fā)光組件(light-emitting component)可以用來指示相機的當前操作模式。

從上圖來看,Vision Pro采用了兩種設計分別是圓形指示器設計、八角形指示器設計(Octagonal Indicator Design)。當相機在捕捉運動圖像的時候,指示器變?yōu)榧t色,當相機沒有捕捉視頻時,指示器就可以為綠色或者黑色。

十三、雙向鏡和單向鏡間自由切換,EyeSight可實現自動自動淡入、淡出功能

壓軸出場的是Vision Pro的Eyesight功能,在WWDC23上,相信很多人對Vision Pro雙向鏡與單向鏡的切換感到好奇,在WWDC23小組討論中,Vision Pro的首席開發(fā)人員Mike Rockwell談到了EyeSight背后的技術。

據悉,Eyesight的想法可以追溯到蘋果前首席設計師Jony Ive,事實上Meta曾在2021年展示過帶有假視覺的原型。

EyeSight功能簡單來說,就是外部的顯示屏可以實時顯示用戶的眼睛。然而實現該功能并非容易,一方面?zhèn)鹘y(tǒng)的2D顯示器在顯示眼睛時會顯得不自然。于是以Mike Rockwell為代表的開發(fā)人員想到了制造一種彎曲的透鏡顯示器,這種顯示器可以為每個觀察Vision Pro外顯示屏的人呈現獨特視圖。

在WWDC23中,Vision Pro的效果展示部分,也可以聽到該頭顯屏幕使用了一種名為“Lenticur ”的透鏡。2021年,Patenltly Apple發(fā)布了三篇關于相關的專利報告。

今年5月,在一項在Lenticur透鏡顯示圖像的方法的專利被公布出來。從專利信息來看,Vision Pro離線后會生成靜態(tài)網格,傳感器會實時將拍攝對象的紋理信息映射到固定的網格之中。在離線的過程中,被拍攝對象的紋理信息和3D網格信息(3D mesh information)可以用于渲染對象多個視點的UV貼圖(UV map),這樣就完成了3D建模。

Vision Pro開發(fā)人員在分享中曾提及,而這些視圖數據有兩大主要數據源,一是頭顯中眼動追蹤攝像頭捕捉到的畫面信息,二是蘋果使用數字角色,這個數字角色是佩戴者的3D面部掃描的幫助下預先生成的。

從圖1A和圖1B分別顯示了Lenticur顯示器的3D前視圖和頂視圖。Lenticur顯示器包括顯示面板、該面板的材質可以是LCD、OLED、DLP、LCoS(硅基液晶)。同時,可以看出Lenticur使用了柱面透鏡,這種透鏡本質上一組放大透鏡,特點是可以改變圖像的寬高比,為每個觀察Vision Pro外顯示屏的人呈現獨特視圖。

圖210可以是視網膜投影儀系統(tǒng)(retinal projector system),其將左圖像和右圖像逐像素掃描到用戶的眼睛之中。為了掃描圖像,投影儀還會·生成光束,這些光束被引導反射組件(reflective components),反射組件會將光束重新引導到用戶的眼睛之中。

EyeSight還包括自動淡入和淡出眼部區(qū)域的功能,這取決于用戶是在沉浸式內容中還是與附近的人進行互動。自動淡入可以理解為,當有人靠近用戶時,此人會自動出現在視野中。

Vision Pro的鏡片中帶有涂層,就像太陽鏡和滑目鏡這類產品一樣,可以產生單向鏡面效果。但是這也就造成一個問題,當使用者佩戴太陽鏡、滑目鏡這類產品時,由于涂層不夠透明很可能會使組件無法有效運行。

Vision Pro使用了紅外透明單向鏡,這款單向鏡使用了支撐結構(support structure)的材料,這種支撐結構可以支撐材料層,使得材料層將外部區(qū)域和內部區(qū)域分開。

同時,光學器件可以與材料層重疊,這樣可以實現該效果的光學組件包括可見相機的可光組件和諸如紅外發(fā)光器件、光紅外發(fā)射器的、紅外光傳感器的紅外組件等可以穿過材料層,同時被紅外透明單向鏡的反射外觀隱藏而不被看到。

結語:打造虛擬交互新模式,Vision Pro有望掀起XR領域熱潮

從上文深扒Vision Pro 13項功能展示中背后專利可以看到,無論是空間窗口、空間音頻等都為用戶帶來了“空間計算”新體驗,同時,EyeSigtht功能一改傳統(tǒng)XR設備“隔絕式”交互方式,使得佩戴者既能實時看到外部情況,還能在有人靠近的情況下,與現實中的人進行交互,打造了虛擬交互新模式。

XR發(fā)展已有10余年的時間,這期間雖然一直缺少爆款級產品出現,但是由于以蘋果、Meta、谷歌為首的科技巨頭的“押注”,XR領域一直受關注度較高,與之相關的新專利、新產品、新場景也在持續(xù)發(fā)布。作為蘋果“十年磨一劍”打造出來的現象級產品Vision Pro有望掀起XR領域的熱潮,進一步擴大XR設備的市場規(guī)模。

關鍵詞:

最近更新

關于本站 管理團隊 版權申明 網站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網 - m.670818.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖ICP備2022009963號-3