Connectivity-Stable 3D Voxel Diffusion via Sampling-Time Guidance
在本次實驗中,拓樸主要指的是樹幹的連結性和骨架連續性。


結論
- **生成 3D 結構的連通性失敗是採樣動力學問題,而不是模型容量問題。**本實驗追蹤完整 sampling 軌跡,最終成功與失敗的樣本在 t = 800 至 600 (T=1000) 之間就開始分歧。且當使用 Guidance 於 800 至 300 的窗口介入後,將最終連通成功率從 6.5% 提升至 30%,這代表 3D 生成的結構性失敗可以在 sampling trajectory 上介入提升效果。
- **在中段窗口介入的 guidance,能同時滿足連通性與自然性 sanity check。**全程介入並壓低引導強度,雖有 36% 成功率但相對於特定窗口介入,自然性指標的表現比較差。而特定窗口介入的部分,介入太早會影響樣本主要結構導致簡化並降低多樣性,介入太晚則沒留給 diffusion prior 將樣本拉回自然分佈的緩衝時間,這兩種 failure mode 沒有單一參數可以同時避免,介入的 window 本身就是控制變數。
- **足夠輕量可即時訓練的 scorer 是條件控制生成在資料稀缺下的替代方案。**在單張 RTX 4070 Ti 上用 5000 筆資料訓練 100 個 epoch 僅需 145 秒,且訓練 scorer 的資料來自 baseline 自己生成的樣本,依據結構指標自動分類,完全不需要人工標註。與其依賴單一通用 scorer (例如 CLIP 之於 DreamFusion) 承擔所有控制目標,既訓練昂貴、訊號又繞遠路,不如將控制目標拆解為多個窄而專的 scorer。每個 scorer 任務範圍窄、易訓練、可保持輕量,且 guidance 直接對齊目標 metric。當需要多目標控制時,疊加多個特定領域 scorer 即可擴充。
問題定義
問題
現有 voxel 3D diffusion 在生成細長且具拓樸結構的物體 (例如傢俱、建築) 時,常出現結構碎裂,包含斷裂、孤島、消失 voxel。這類錯誤我認為不是增加訓練步數或模型容量就能完全消除,而是因為 diffusion 的 denoising 更新主要是局部修補 (local refinement),缺乏顯式的全局連通性 (global connectivity) 與幾何慣性約束。本次實驗以 Minecraft 樹木為資料,驗證 diffusion 生成 3D 結構的拓樸結構問題與解決方案效果驗證。
以下為樣本投影三視圖範例,有木頭則顯示綠色,沒有木頭有樹葉則顯示黃色,兩者都沒有顯示深藍色代表空氣。Diffusion 模型生成的 3D 樣本非常容易出現結構斷裂現象,baseline diffusion 的樹幹結構都容易有不完整 (綠色方塊沒有連貫,計算方式是 26-neighbor):


ground truth 的完整樹木樣本則如下 (綠色方塊形成的樹幹沒有斷裂):

