首頁 保險 > 正文

AI 重塑圖像生成:觀黑夜如白晝,洞微處若觀火

作者:吳昕


(資料圖片僅供參考)

「色彩就是歡樂(Color is joy)。」20 世紀最有名、也最具影響力的攝影大師 Ernst Haas 曾說。在 20 世紀 60 年代,「最嚴肅」的攝影師只愿看到黑白世界,而這位彩色成像技術的先驅率先使用柯達膠片,表達出色彩不可否認的力量。

同一時期,法國火山學家 Katia 和 Maurice Krafft 夫婦使用 16 毫米拍攝鏡頭和尼康 F2 膠片相機記錄下驚心動魄的活火山運動,噴涌而出的橘紅色巖漿猶如地球心臟跳動時流動的血液。

光學成像技術的發(fā)展大大擴展了人類的視覺和表達能力,但很難讓人類走出彩色的困境,我們不可能像在白天一樣自由地看到黑夜的一切,盡管大多數魔法都發(fā)生在夜晚。

一、人眼、ISP 與數字成像

光學成像技術的靈感源自對人類視覺活動的觀察。當進入眼睛的光子撞擊每只眼睛后部視網膜中 125 億個光敏神經細胞中的一個或多個時,視覺處理就開始了: 人類約有1.3 億視桿細胞,這種桿狀細胞使用視紫紅質來接收微弱的光線,幫助我們感知特定光強度的亮度變化,也主導了我們在晨昏弱光下和夜間的視覺功能。

可見光波長范圍 380-790 納米,也是唯一有色彩信息的波長范圍。

相較于勢力龐大的視桿細胞,人類僅有 7 百萬左右的視錐細胞。視錐細胞依靠相關的感光色素來辨別顏色,只有在光線充足的時候它才能正常工作。

如果是在特別暗的環(huán)境里,視錐細胞會停止工作,無法區(qū)分不同波長的光,我們只能看到灰暗的場景。

兩種細胞在視網膜的分布不同,功能不同。視桿細胞(藍色)主要是感知明暗,視錐細胞(紅色)感受不同的顏色。

我們身邊常見的手機、監(jiān)控、安防等設備的攝像頭也都是可見光攝像頭,它們和膠片成像最大區(qū)別之一就是感光媒介從膠片變成圖像傳感器(比如常見的 CMOS),一種金屬氧化物,負責將光信號轉變成電信號。

CMOS 上面按規(guī)則布滿了微型的金屬元件,它們就像一個個忠于職守的小小記錄員,記錄對應位置的亮度信息,叫做像素。 CMOS 就像桿狀細胞,只能感受光的強弱,無法感受光的波長(等于無法記錄顏色)。科學家后來在圖像傳感器之前添置了一個濾光層,透過 CMOS 上接收到的過濾結果(RAW 圖),依靠專門的算法計算出每個像素的顏色。

這時就輪到 ISP(Image Signal Processor,圖像信號處理器)出場了。它專門負責對前端圖像傳感器輸出的電壓、電流信號做后期處理,力求較好還原現場細節(jié),讓人看懂圖像。

事實上,這些后期處理都是基于圖像算法實現的。比如,推測出像素顏色的算法就是「去馬賽克(demosaicing)」

現在幾乎所有的設備都會默認自動執(zhí)行「線性校正」,就是通過 ISP 給機器較為偏暗的成像來一個線性變換,以抵消過于暗淡的不良輸出,讓最后得到的結果與肉眼實際看到的一致。

在弱光條件下,圖像傳感器很難接收到足夠的光信息。因此需要較高的 ISO(感光度) 或較慢的快門速度,增加感光芯片接收到的光子量,但這往往容易導致發(fā)熱問題,產生噪點圖像。ISP 具有先進的降噪算法,可減少各種顏色或圖案噪聲,同時保留紋理細節(jié)。

白平衡,是力求在各種復雜場景下都能精確還原物體本來的顏色,哪怕你是在白熾燈下拍攝了一張白紙。自動曝光控制,則是透過分析來自傳感器的亮度信息,計算和控制光圈、快門速度和 ISO ,使得圖像亮度適宜。

因此,ISP 技術很大程度上決定數字相機的成像質量,被稱為攝像設備的 「大腦」。

二、 ISP 與傳統夜視方案的困境

不過,可見光這位魔術大師也給 ISP 出了不少難解的題。 白天,如果光線過強或者反差太大,比如逆光或者是車輛從隧道里出來突然面對強光時的感知,人眼很難解決,攝像頭也不行。

隨著太陽被地平線吞沒,在極弱光下,傳統 ISP 幾乎什么都看不到。

按照軍工標準,滿月大概是 0.1 Lux(單位面積的光通量),接著是 1/4 月,大概是 0.01Lux。 沒有月亮,天上只有星星的話,大概是 0.001Lux,我們把這種星光級別(的照度)就定義為極弱光。深知未來 CEO 張齊寧解釋道。

每當夜晚來臨,深圳城市公園湖泊等燈光覆蓋不好的地方,基本上屬于極弱光。小區(qū)里的車位停車,因為路燈昏暗,倒車很不方便,也是弱光或極弱光的場景。

自 2017 年底成立以來,深知未來就致力于用自研 AI ISP 技術突破極弱光場景(低照度、逆光、背光等復雜光線及雨雪霧環(huán)境)條件限制,實現此類場景下的實時全彩成像。

在戶外運動場景里,越來越多人喜歡夜爬,而深圳幾乎每周都會有一、兩個人因為夜里爬山走失,此時相關救援隊收到消息后會用無人機在山上進行搜救。

黑夜也是罪犯的天然保護傘。近 70% 的犯罪都是在夜間發(fā)生,從晚上 7 點到次日凌晨 5 點是犯罪事件的高發(fā)期。

除此之外,兩萬多公里邊境的駐防、山嶺和沙漠油田作業(yè)區(qū)的違規(guī)監(jiān)控、長江十年禁漁令下河流常態(tài)化監(jiān)管、電力巡檢以及野生動物監(jiān)測等等,由于光線太弱,傳統攝影設備很難在夜間進行探測,必須借助紅外攝像頭。

在一些國家自然保護區(qū),你可以看到用鐵絲捆綁在樹干上的紅外相機,監(jiān)測野生動物。它會主動向外發(fā)射紅外光束(非可見光),照射目標,并將目標反射的紅外圖像轉化成為可見光圖像,進行夜間觀察。

這種主動紅外夜視系統在全黑情況下也可以進行觀察。 不過,由于接收的是物體反射的單一頻段的紅外光,不包含可見光的綠藍等基色,無法呈現彩色效果。經處理后,紅外成像僅能呈現黑白效果,無法滿足需要捕捉更多目標細節(jié),比如顏色、斑紋等的需求。

在城市監(jiān)控場景下,通過紅外補光車牌這類高反光的物體很容易過曝,而衣著顏色、車身顏色、車牌等又往往都是破案的關鍵線索,丟失不得。

激光夜視儀和紅外夜視儀原理差不多,也屬于主動傳感成像,但觀測距離更遠,最高可達幾公里。除了同樣面臨信號干擾的問題,模塊價格都不便宜,間接提高了構建高質量相機的總系統(可見光+不可見光)成本。

除了上面常見的主動傳感成像的手段,還有一種被動紅外夜視系統。熱像儀會自動收集來自場景中所有物體的不可見熱輻射,將熱分布數據轉換為視頻圖像,使用也很廣泛。

比如,監(jiān)測輸電線需是否有接觸不良、漏電、過熱或存在樹障;搭載在無人機上觀測象群、可疑人群、車輛的動向以及油田、海面可疑人物、車輛和船只的監(jiān)測。

熱像儀監(jiān)測象群移動。熱像儀的原理是基于一切溫度高于絕對零度的物體時時刻刻都在不停地輻射著紅外線。

和可見光成像一樣,熱成像也屬于被動傳感成像手段。但成像的結果丟失了很多特征、紋理等信息,看起來就像鬼影。

張齊寧認為,(熱成像里)人臉是整體的模糊呈現,很難辨別面部細節(jié)(包括眼睛、鼻子甚至皺紋),難以完成高質量的視覺成像。

由于成像質量不高,在目標(比如野火監(jiān)測)溫差都不大的情況下,容易引發(fā)誤報。另外,因為無法光學變焦,熱像儀也不能遠距離看清目標,而可見光鏡頭探測距離要遠得多。

近期 Nature 報道了美國普渡大學和洛斯阿拉莫斯國家實驗室的研究人員開發(fā)了一種熱輔助探測和測距(HADAR)系統,通過訓練人工智能(AI)來確定熱像中每個像素的溫度、能量特征和物理紋理,產生的圖像幾乎與傳統相機在日光下拍攝的圖像一樣清晰。

那一期的 Nature 以 HADAR 研究作為封面

該研究提出了一種辦法HADAR,結合熱物理學、紅外成像和機器學習,試圖恢復目標紋理并克服鬼影效應。

這個技術實際上是一種偽色彩,根據材質預測物體的顏色。張齊寧也注意到了這份研究?!高@仿佛蠟筆作畫,蠟筆材質本身都一樣,但是從顏色上來說又各有各的色彩,其實很難預測這個蠟筆到底是什么顏色?!?

站在商用層面,HADAR 技術更不占優(yōu)勢。

數碼相機誕生之初只有 28 萬像素。后來,人們一直致力于讓 CMOS 在很小面積上容納更多的感光單元,瘋狂提升相機分辨率——從 100 萬、500 萬到上千萬、3500 萬甚至上億,成像效果完全可以與傳統膠片相機媲美。

現在的手機鏡頭普遍都在幾千萬像素,高端紅外熱像儀才不過上百萬像素。為什么?因為核心元件探測器的像元沒辦法做?。?

熱成像利用的紅外光(8 微米到 14 微米)波長非常長,能量更大,導致探測器上的像元(像素)尺寸要做得非常大??梢姽庀鄼C的像素只有 1-2 微米,而紅外熱成像儀的探測器像元每個有 12-17 微米。

在鏡頭尺寸一樣的情況下,熱像儀的鏡頭像素要比可見光鏡頭的像素少得多,成像效果自然差很多。

熱成像儀的探測器像元尺寸越小,像元的數量就越多,分辨率也就越高,視場角也越大,視野更廣闊。

熱成像的芯片很難做小,即使走量也沒辦法將成本攤薄到比 CMOS 還便宜。張齊寧認為,熱成像技術會在特定細分領域,比如完全無光的場景識別生命跡象,具有明顯優(yōu)勢。如果放在其他需要仔細辨別細節(jié)的場景,優(yōu)勢相對并不明顯。

目前,攝像頭在極弱光環(huán)境下至今「基本上就停留在黑白時代」,之前也沒有特別好的方法去解決彩色成像的問題。張齊寧說,在極弱光下,實現高信噪比質量成像的方法幾乎是沒有的。

SONY 創(chuàng)始人盛田昭夫在其回憶錄中談到 1960 年代索尼自研特利瓏,認為彩電是大勢所趨。

但是,人類會為體驗感的升級而買單。彩色膠片、彩色電影、彩電對黑白競對的更替,均是如此?!稌r代雜志》在 2016 年將日本索尼特麗瓏(Trinitron ,彩色顯像管)電視,與 iPod、iPhone、Macintosh 、谷歌眼鏡一并列入有史以來最有影響力的 50 個電子設備排行榜。

在產品功能方面,錄像、存儲和夜視功能已成為攝像頭的標配。洛圖科技 2022 年報數字顯示,97% 的攝像頭支持夜視功能,并且逐漸向彩色進化,日夜全彩攝像頭份額從 1 月的 20% 增長至 12 月的 31%。

摩爾定律還在發(fā)揮作用。在未來,當 AI 算力足夠便宜,功耗也足夠低的時候,我們就能以不高的代價為每一個攝像頭更換夜間視覺引擎。張齊寧說。

如果性價比、功耗都跟現在的成像的芯片相當,我們?yōu)槭裁床蝗ビ靡粋€全彩夜視的攝像頭?

三、另一條路:融合 AI,軟化 ISP

我們現在的技術已經可以在極弱光下,真正做一些高質量成像,在黑暗中仔細地分辨人和事物的一些細節(jié)。據張齊寧介紹,在很多關鍵成像任務上,可以做幾百倍的提升。

極弱光下,激光方案(左),熱成像(中)和深知未來的全彩夜視成像效果(右)對比。

比如,基于傳統 ISP 硬件,只能去做 0. 1Lux 的成像,經過我們 AI-ISP 增強之后,可以做到 0.0001Lux 成像。

能看多清楚,跟目標物體大小有關。他解釋說,如果監(jiān)測范圍要到 10 公里,極弱光下依舊可以看清很高的大樓、大橋等巨大建筑物。如果需要監(jiān)測 3-5 公里的范圍,基本上就是監(jiān)測海上的船、地面上的大型車輛等。

如果是要看清一個人,現在光學上能夠做到的也就是一兩百米。

2018 年英特爾的一篇 CVPR 論文 Learning to see in the dark 使用了一個模型來擬合整個 ISP 過程,從一個 RAW 數據作為輸入,直接輸出一個 sRGB 的成片,效果很驚艷。

論文大火,某種程度上,它論證了通過整個神經網絡來實現 ISP 全部功能的可能性。特別是在商業(yè)角度,它增加了可見光攝像頭系統的有用范圍,提供了一個以更低成本提供實時日夜全彩清晰圖像的可能性。

隨后,深知未來、安霸、華為海思、愛芯元智、眼擎科技等一些企業(yè)開始探索用神經網絡搭建視覺成像引擎。

鏡頭、CMOS 以模擬器件為主,很難把算法加進去,鑒于兩個產業(yè)已經非常成熟,很難實現原理層面上的突破(除非是材料)。

但是,ISP和算法相關。它會對接收到的電信號做很多處理,會把大量的有用的信息都抹掉,在這個基礎上,再試圖提升下游的識別效果,已經失去先機。特別是暗光和高動態(tài)場景,圖像失真和信息損失不可避免。

比如,有的 CMOS 已經達到 160dB,但多數傳統 ISP 動態(tài)范圍還停留在 48dB,猶如高速公路過后接著走一段鄉(xiāng)村小路。由于 ISP 這條鄉(xiāng)村小路容納的車流量有限,會對接收到的電信號做一定處理,比如通過去掉最暗部分和最亮部分,扔掉大量信息。

如果一次性端掉整個 ISP 不可靠,考慮到目前端側的算力也有限,結合落地中的功耗以及成本問題,能不能將其中與成像質量相關的關鍵環(huán)節(jié) AI 化,直接從原始數據(比如感光芯片數據)里提取更多信息,讓 AI 來處理? 比如,用一個DNN 做白平衡,另一個 DNN 做 Demosaic,然后讓很多個神經網絡協同工作?

循著這一思路,2021 年華為海思發(fā)布越影 ISP 芯片,被視為推動了整個安防行業(yè)的 ISP 轉向。越影 AI ISP 能智能區(qū)分圖像中的信號和噪聲,實現低照度場景下的智能降噪。

2022年,在 ISP 處理方面 17 年的經驗的安霸公司也宣布推出 AI ISP ,可以在極低的照度和最小的噪聲下實現低光下的彩色成像,比主流 ISP 性能提升 10 到 100 倍,并具有更自然的顏色再現和更高的動態(tài)范圍處理能力。

深知未來也利用神經網絡深度學習噪聲和信號的分布特性,訓練出一套能從極弱光信號中分離噪聲和真實信號的深度學習 AI 算法,在降噪的同時將真實信號增強至正常光環(huán)境強度,信噪比提升最高可達 25dB,實現了在極弱光環(huán)境下的正常成像。

深知未來 AI ISP技術,信噪比提升最高可達 25dB,實現了在極弱光環(huán)境下的正常成像。

云南昆明消防總隊在夜間使用深知未來夜視相機掛載 S3 搭配無人機進行測試,此圖為 S3 VS 其他夜視相機載荷對比圖。

神經網絡強大的地方在于對復雜場景的建模能力,使得圖像效果超越傳統 ISP,特別是極低照度下的降噪、增強對比度等方面。

「我們所做的一切就是收集足夠多的數據,增強建模能力,特別是各種 corner case?!?張齊寧舉例道,在深圳生活長大的人可能無法想象西藏高原、冰川等夜晚有多黑。我們從來沒有見過那么黑的場景。在整個中國甚至全球范圍內,成像還會遇到哪些極端情況?我們的算法能不能覆蓋到?

獲取這些 Bad case,再針對性在做訓練,就能增強應對復雜場景的能力,實時更新 ISP 參數。迭代視覺模型,即可快速實現芯片產品畫質的升級換代。

比較之下,由于傳統 ISP 在做成像時,必須在 FPGA 或者是 ASIC 上運行,因為它必須有一個非常嚴格的有時序的硬件來保證它的時延可控,完全固化成了電路邏輯,因此,它們無法有效進行個性化調整,也永遠無法升級。

目前,AI 與傳統 ISP 的結合趨勢在手機廠商中非常突出,目的是增加手機拍照效果,深化品牌差異。另外,AI ISP 也在走入安防、無人機甚至自動駕駛領域。

去年至今,我們最大的一個商業(yè)化場景就是行業(yè)級無人機的全彩夜視相機掛載。張齊寧告訴我們,無人機市場的商業(yè)模式已經被驗證,現在已經擁有成熟的系列產品線。

國內行業(yè)級無人機的應用其實很廣泛,包括公共安全、漁政、邊防、海防、消防、應急等等。目前國內 200 家以上的行業(yè)級無人機相關企業(yè),主要圍繞著農業(yè)植保、電力巡檢和警用安防三大重點領域。

與此同時,深知未來也在探索夜視相機的消費級市場,如手持夜視望遠鏡等。

四、邁向 2.0 ,干掉 ISP

現在,我們都還在 AI ISP 1. 0 時代——部分的傳統 ISP 流程加上部分神經網絡流程——本質上還是一種過渡。在張齊寧看來。

目前的方案不僅要傳統 ISP,還需要 NPU,無論是成本還是功率消耗,肯定都比原來的要高,沒那么容易實現平替。

芯片寸土寸金,如今還要給 ISP 留一塊地,面積還挺大,甚至比 NPU 還要大。有時候,功耗還會超越 NPU。

因為 ISP 和 NPU 需要進行協同工作,雙方的一些數據交換就會導致 NPU 沒有辦法全功率工作,通??赡苤挥邪俜种畮?、二十的利用率。

不過,ISP 的技術還在不斷演進,與 AI 的融合只是其中一個方向。也有觀點認為,基于一些自身不足(比如功率、端側算力、訓練推理成本等),AI ISP 也不可能全部取代傳統 ISP。

而在張齊寧看來,與 AI 融合的技術路徑必須繼續(xù)進化到一個大家都無腦選擇的狀態(tài),才能真正實現規(guī)?;鎿Q。「 接下來,我們想完全切掉所有傳統 ISP 流程,用神經網絡替代。」

視覺從誕生的第一天起就是在用神經網絡在做成像。三葉蟲因此成為寒武紀海洋中的霸主,在地球上生存了近三億年才滅絕。人的視覺本身就是一個非常純粹的神經網絡。

深知未來預計會在今年年底實現 2. 0 框架的雛形。據張齊寧介紹,這是一個 all in one 的神經網絡,不再依賴于任何傳統 ISP pipeline。

你可以認為它是一個 multitask 的神經網絡,可以實現非常多的任務,不像現在的方案還需要有很多神經網絡協作。

「只需要 NPU,它是一個全新物種?!?

關鍵詞:

最近更新

關于本站 管理團隊 版權申明 網站地圖 聯系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網 - m.670818.com All rights reserved
聯系我們:39 60 29 14 2@qq.com
皖ICP備2022009963號-3