文章首發(fā)微信公眾號:小小cv筆記 論文題目 pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction 1、簡介 pixelSplat是一個前饋模型,它學習從圖像對中重建三維高斯基元參數(shù)化的三維輻射場。模型具有實時和內(nèi)存高效渲染,可擴展的訓練以及在推理時快速的3D重建。為了克服稀疏和局部支持表示所固有的局部最小值,我們預測了3D上的密集概率分布和該概率分布的樣本高斯均值。通過一個重參數(shù)化技巧使這個采樣操作可微,允許我們通過高斯飛濺表示反向傳播梯度。在現(xiàn)實世界的RealEstate10k和ACID數(shù)據(jù)集上對方法進行了寬基線新視圖合成的基準測試,其中我們優(yōu)于最先進的光場轉(zhuǎn)換器,并在重建可解釋和可編輯的3D輻射場時將渲染速度加快了2.5個數(shù)量級。 2、背景 1)單場景新穎視圖合成。早期的方法采用體素網(wǎng)格和學習的渲染技術,最近,神經(jīng)場和體渲染已經(jīng)成為事實上的標準。然而,這些方法的一個關鍵障礙是它們的高計算需求,因為渲染通常需要對每條光線進行數(shù)十次神經(jīng)場查詢。離散數(shù)據(jù)結(jié)構可以加速渲染,但在高分辨率下無法實現(xiàn)實時渲染。3D高斯噴濺解決了這個問題,它使用3D高斯分布來表示輻射場,可以通過柵格化有效地渲染。然而,所有的單場景優(yōu)化方法都需要幾十張圖像來實現(xiàn)高質(zhì)量的新視圖合成。 2)基于先驗的三維重建和視圖合成。可概括的新穎視圖合成旨在從每個場景的少數(shù)圖像中實現(xiàn)3D重建和新穎視圖合成。如果代理幾何(如深度圖)可用,機器學習可以與基于圖像的渲染相結(jié)合,以產(chǎn)生令人信服的結(jié)果。 3)在這項工作中,訓練神經(jīng)網(wǎng)絡在單個前向傳遞中僅從兩張圖像中估計3D高斯原始場景表示的參數(shù)。我們的方法呈現(xiàn)出兩全其美的效果:它以3D高斯形式推斷出可解釋的3D場景表示,同時與光場變壓器相比,渲染速度加快了三個數(shù)量級。 3、方法 1)給定一對圖像及相機參數(shù),可推斷出底層場景的三維高斯表示,可以渲染產(chǎn)生看不見的視點的圖像。方法包括一個雙視圖圖像編碼器(解決尺度模糊性)和一個像素對齊的高斯預測模塊。 2)雙視圖圖像編碼器,論文使用兩張圖像進行新視角合成,將兩個參考視圖表示 為I1和 I2 。對I1中的每個像素,利用I2來中對應的外極線,來標注I1相應的深度。深度值是根據(jù)I1和 I2 的相機位姿計算出來的 。編碼器通過外極注意力(epipolar attention)找到每個像素的對應關系,并記憶該像素的相應深度。如果在 I2 中沒有對應的像素的深度,則通過每幅圖像的自注意來修復。合成新視角基本都需要補充信息,常見的是加入深度信息,本文也是通過兩幅圖像計算出深度信息作為補充?? 3)在兩個不同的視圖(圖像)中捕獲(投影)時,如何使用三角測量來計算點 (X) 的深度。在此圖中,C1 和 C2 分別是左右攝像頭的已知 3D 位置。x1 是左相機捕獲的 3D 點 X 圖像,x2 是右相機捕獲的 X 圖像。x1 和 x2 稱為對應點,因為它們是同一 3D 點的投影。我們使用 x1 和 C1 找到 L1,使用 x2 和 C2 找到 L2。因此,我們可以使用三角測量來找到 X, 4)像素對齊的高斯預測模塊,提出了像素對齊高斯函數(shù)的概率預測。對于輸入特征圖中的每個像素特征F[u],神經(jīng)網(wǎng)絡f預測高斯原語參數(shù)Σ和s,高斯位置μ和不透明度α不能直接預測,這將導致局部最小值。相反,f預測深度p?(z)上的每像素離散概率分布,由φ參數(shù)化。然后采樣產(chǎn)生高斯基元的位置。每個高斯的不透明度被設置為采樣深度桶的概率。最后一組高斯原語可以使用3DGS飛濺算法從新的視圖中渲染出來。 5)像素對齊高斯的概率預測,需要:深度桶b∈RZ,像素坐標u處的特征F[u],參考視圖的相機原點o,射線方向du。1、預測深度概率φ和偏置δ,協(xié)方差Σ,球諧波系數(shù)S,2、樣本深度桶指數(shù)z從離散概率分布參數(shù)化的φ,3、通過解投影計算高斯平均值μ,深度bz由桶偏移量δz調(diào)整,4、根據(jù)采樣深度的概率設置高斯不透明度α 4、實驗 1)和其他方法的性能對比 2)和其他方法的可視化對比 3)消融實驗 |