你曾想過,只要一張手機照片,就能在三秒鐘內得到一個可以直接放進遊戲引擎、 電商平台或 AR 場景的 3D 模型嗎?微軟研究院在 2025 年 12 月實現了這件事。 TRELLIS 2 的到來,不只是版本更新,而是整個圖像轉 3D 領域的一次正式換代。
| 分類:AI 技術 / 3D 生成 / 開源工具 目錄 什麼是 TRELLIS 2?一分鐘快速認識 核心突破:O-Voxel 如何終結拓撲限制 三階段生成架構深度解析 TRELLIS 2 vs 前一代:全面數據比較 生成速度實測:3 秒是真的嗎? 應用場景:誰最需要 TRELLIS 2? 社群反應與媒體評價 硬體需求與現實限制 如何取得與開始使用 結語:里程碑還是宣傳噱頭? 1. 什麼是 TRELLIS 2?一分鐘快速認識 TRELLIS 2 (正式名稱 TRELLIS.2)是微軟研究院於 2025 年 12 月 16 日 正式釋出的開源圖像轉 3D 生成模型,論文全名為 《Native and Compact Structured Latents for 3D Generation》, 已收錄於 arXiv(編號 2512.14692)。 它以 MIT 授權 完全開放原始碼、模型權重與訓練流程, 是目前開源社群中參數量最大、功能最完整的 3D 生成模型之一。
簡單說,TRELLIS 2 做到了以下幾件讓業界驚喜的事:
投入一張普通照片,3 秒鐘 產出帶有完整 PBR 材質的 3D 網格模型。 首次在開源模型中支持透明材質 (玻璃、液體、冰晶)原生生成。 採用全新的 O-Voxel 表示法 ,突破傳統等值面的拓撲限制。 擁有 40 億參數 ,是前一代的兩倍規模。 輸出格式為 GLB,可直接匯入 Blender、Unity、Unreal Engine 使用。 對於遊戲開發者、3D 美術、電商經營者、甚至從事 網頁設計 需要快速取得 3D 素材的設計師而言, TRELLIS 2 代表的不只是「又一個 AI 工具」, 而是生產流程可能被徹底重塑的訊號。
2. 核心突破:O-Voxel 如何終結拓撲限制 要理解 TRELLIS 2 為何特別,就必須先了解它的核心創新—— O-Voxel(Omni-Voxel,全向體素) 表示法。 這是整個架構最關鍵的技術貢獻,也是讓它能夠超越市場上絕大多數競品的根本原因。
傳統方法的困境 過去的 3D 生成模型大多使用等值面方法 (如 SDF、Flexicubes)來定義幾何形狀。 這類方法有一個根本性的限制:它們假設 3D 物件的表面是「封閉流形」—— 也就是說,物件的每一個面都必須是完整、封閉且不交叉的。 昆蟲翅膀、網格布料、交叉重疊的珠寶,這些在現實中極為常見的形狀, 舊方法往往生成失真或出現孔洞。
O-Voxel 的革命性設計 TRELLIS 2 引入的 O-Voxel 是一種「無場(field-free)」稀疏體素結構, 同時編碼幾何形狀與外觀資訊。它的幾何核心採用 彈性對偶網格(Flexible Dual Grid) , 記錄網格與體素邊界的精確交叉資訊,從而能夠:
保留銳利邊緣 :桌角、刀刃等硬邊不再被過度平滑化。 支持開放曲面 :昆蟲翅膀、薄片狀結構可以完整重建。 處理非流形幾何 :交叉或自相交的結構不再崩潰。 原生支持透明材質 :每個體素儲存 Alpha 透明度值,玻璃、液體首次被正確呈現。 在外觀方面,O-Voxel 的每個體素儲存完整的 PBR 屬性,包含: 基礎色(RGB)、金屬度(Metallic)、粗糙度(Roughness),以及透明度(Alpha)。 這意味著生成的 3D 模型可以直接在任何支持 PBR 材質的渲染器中「重新打光」, 而不是帶著烘焙好的光照資訊、一旦換了燈光就顯得不真實。
Hacker News 上一位開發者的比喻生動地說明了這項技術的價值: 「用 2D 來類比的話,他們找到了一種高效、雙向、一次性將 PNG 轉換為 SVG 的方法, 無需反覆迭代——這太瘋狂了。」 O-Voxel 與傳統 3D 網格之間的雙向轉換極為高效: 網格轉 O-Voxel 在單顆 CPU 上不到 10 秒, 反向轉換透過 CUDA 加速更在 100 毫秒以內 完成。
3. 三階段生成架構深度解析 TRELLIS 2 的完整生成流程由三個緊密協作的元件組成, 每個元件各自負責不同的任務,共同構成從「一張照片」到「可用 3D 資產」的完整路徑。
第一階段:稀疏壓縮 VAE(SC-VAE) SC-VAE 是一個全卷積網路,負責將 O-Voxel 資料壓縮成極為緊湊的潛在空間。 它以 16 倍空間下採樣 的方式運作, 一個 1024³ 解析度的完整紋理 3D 資產,僅需約 9,600 個潛在 token 即可表示, 且感知品質幾乎無損。這個設計讓後續的擴散模型能夠以極低的計算成本進行高品質生成。
第二階段:Flow-Matching Diffusion Transformer(DiT) 生成核心由三組 DiT 組成,分別負責:
稀疏結構生成 ——決定 3D 物件的整體形狀骨架。 幾何細節生成 ——填補精細的幾何資訊,如褶皺、紋路、孔洞。 材質紋理生成 ——賦予物件 PBR 材質,包含顏色、金屬感與粗糙度。 每組 DiT 約擁有 13 億參數 (寬度 1536、30 個 Transformer 區塊、12 個注意力頭), 三組合計正好構成 40 億參數 的整體規模。
第三階段:FlexGEMM 自訂推理後端 為了讓 TRELLIS 2 的推理速度達到實用標準, 微軟團隊開發了名為 FlexGEMM 的自訂稀疏卷積後端, 使用 Triton 核心實現格雷碼排序與 Split-K 並行化技術, 帶來最高 2 倍的推理加速 ,這正是它能在 H100 上跑出 3 秒成績的關鍵。
訓練資料方面,TRELLIS 2 使用了約 80 萬個 3D 資產 , 資料來源涵蓋 Objaverse-XL、ABO、HSSD 等公開資料集, 並透過 TexVerse 進行 PBR 多樣性增強,最終在 32 張 H100 GPU 上完成訓練。
4. TRELLIS 2 vs 前一代:全面數據比較 TRELLIS 2 究竟比初代 TRELLIS(2024 年 12 月發布,曾獲 CVPR 2025 Spotlight) 強在哪裡?以下用一張表格做最直接的對比,讓你一眼看清兩代之間的差距。
TRELLIS 2 vs TRELLIS 1 技術規格對比表 比較項目 TRELLIS 1(2024/12) TRELLIS 2(2025/12) 參數量 最高 20 億 40 億 (翻倍) 3D 表示法 SLAT(結構化潛在) O-Voxel (原生無場結構) 特徵擷取方式 DinoV2 從渲染圖像投影(慢、有烘焙光照) 演算法直接轉換 (瞬時、無烘焙光照) PBR 材質支持 不原生支持 完整支持 (色彩、金屬度、粗糙度、透明度) 透明材質 不支持 首次原生支持 複雜拓撲 受等值面限制 任意拓撲 (開放/非流形/封閉均可) 最高解析度 較低(約 512³) 最高 1536³ 輸出格式 網格、NeRF、3D 高斯潑濺 僅網格(GLB) 訓練資料量 約 50 萬物件 約 80 萬物件 材質可重新打光 否(含烘焙光照) 是 (乾淨 PBR 屬性) 開源授權 MIT MIT (商業可用)
值得特別說明的是,TRELLIS 2 這次升級也有一個刻意的取捨: 它移除了初代支持的高斯潑濺(Gaussian Splatting)和神經輻射場(NeRF)輸出, 統一以 GLB 網格格式輸出。這個決定雖然讓部分研究用途受限, 但對於大多數商業場景而言,帶有完整 PBR 材質的標準網格格式才是真正「可用於生產」的資產。
5. 生成速度實測:3 秒是真的嗎? 許多人看到「TRELLIS 2 3 秒生成 3D 模型」的標題, 第一反應是半信半疑。這個數字確實是真的——但有個前提:你需要一張 NVIDIA H100 GPU 。 以下是官方在不同解析度下的推理速度數據:
TRELLIS 2 推理速度(NVIDIA H100 GPU) 輸出解析度 總生成時間 形狀生成時間 材質生成時間 512³(低解析度) 約 3 秒 約 2 秒 約 1 秒 1024³(中解析度) 約 17 秒 約 10 秒 約 7 秒 1536³(高解析度) 約 60 秒 約 35 秒 約 25 秒
如果你手邊是消費級顯示卡(如 RTX 4090),生成時間大約是上表的 2 到 3 倍 。 也就是說,512³ 解析度大概需要 6~9 秒,1024³ 解析度則落在 35~50 秒左右。 對於大多數應用場景而言,這個速度已經相當實用。
科技媒體 Towards Deep Learning 的評測者寫道: 「那個 3D 資產在 Blender 裡讓我工作好幾天,而 TRELLIS 2 用幾秒鐘就搞定了。」 這也許誇張了一些,但它確實點出了這個工具對於內容生產效率的實際意義。
6. 應用場景:誰最需要 TRELLIS 2? TRELLIS 2 的開放授權與驚人速度,讓它適合非常廣泛的使用族群。 以下整理了幾個最具潛力的應用方向:
遊戲開發(獨立開發者的福音) MIT 授權意味著 TRELLIS 2 可直接用於商業遊戲。 開發者能從概念圖或參考照片快速生成道具、岩石、植被、建築廢墟等環境資產, 特別適合沒有專職 3D 美術的獨立遊戲團隊。 生成的 GLB 格式可直接匯入 Unity 或 Unreal Engine,幾乎無需額外處理。
電商產品展示 只需拍攝一張產品照片,TRELLIS 2 就能在短時間內生成可旋轉的 3D 產品模型, 用於網站互動展示或 AR 試用體驗。 對於大量 SKU 需要建模的電商平台而言,這個自動化流程的價值難以估計。
AR / VR 內容製作 最佳化的 PBR 輸出格式可直接用於 Meta Quest、Apple Vision Pro 等 XR 平台的內容製作。 可重新打光的材質特性讓同一個模型在不同虛擬環境中都能保持真實感。
建築視覺化與室內設計 設計師可以拍攝實體家具、建材樣本,再用 TRELLIS 2 快速生成 3D 模型, 用於空間配置模擬或向客戶提案展示,大幅縮短傳統 3D 建模的時間成本。
文字轉 3D 的延伸工作流 雖然 TRELLIS 2 原生僅接受圖像輸入, 社群已實現了「文字→圖像→3D」的串接工作流: 先透過 FLUX.1-schnell 或 Stable Diffusion 將文字描述生成圖像, 再送入 TRELLIS 2 轉為 3D,實現從自然語言到立體模型的全自動流程。
8. 硬體需求與現實限制 使用 TRELLIS 2 之前,你需要先確認自己的硬體是否達標。 以下是官方建議與社群實測的硬體需求整理:
TRELLIS 2 硬體需求一覽 項目 最低要求 建議規格 GPU 顯存(VRAM) 16 GB 24 GB 以上 (RTX 3090 / 4090) GPU 型號 NVIDIA RTX 系列(CUDA 支持) NVIDIA H100 / A100 (雲端) 作業系統 Linux(Ubuntu 推薦) Linux(目前不支持 Windows) 儲存空間 20 GB 以上 50 GB 以上(含模型快取) 模型權重大小 約 16.2 GB(Hugging Face 下載)
對於沒有高端 GPU 的用戶,微軟在 Azure AI Foundry 提供了雲端版本, 可直接透過 API 呼叫使用,無需本地部署。 fal.ai 等第三方平台也提供了 TRELLIS 2 的託管服務, 讓你用按量計費的方式體驗模型能力。
9. 如何取得與開始使用 想要親手試用 TRELLIS 2 ?以下整理了各種取得管道,從免費線上 Demo 到本地部署都有:
對於完全沒有程式背景的用戶,建議先從 Hugging Face 線上 Demo 開始, 上傳一張照片就能直接體驗 TRELLIS 2 的生成能力。 有一定技術背景的開發者則可以參考 GitHub 上的安裝文件,在自己的 Linux 機器上完整部署。
10. 結語:里程碑還是宣傳噱頭? 回到最初的問題:TRELLIS 2 真的改變了什麼?
從技術角度看,答案是肯定的。O-Voxel 表示法解決了困擾 3D 生成領域多年的拓撲限制問題, 完整 PBR 材質支持讓生成結果首次真正「可用於生產」, 而不是只能做 demo 展示的研究玩具。 40 億參數的規模配合 MIT 開放授權, 讓 TRELLIS 2 在與騰訊 Hunyuan3D-2 等商業競品的對比中也毫不遜色。
但我們也要誠實面對它的局限。TRELLIS 2 目前仍是一個研究階段的開源專案, 而非開箱即用的商業產品。高硬體門檻(24GB 顯存起跳)、 僅支持 Linux、展示範例與實際結果的落差, 以及偶發的網格孔洞問題——這些都是它距離「讓所有人使用」還需要跨越的距離。
即便如此,TRELLIS 2 仍然代表著一個清晰的訊號: 從一張照片自動生成生產就緒的 3D 資產,這件事正在從「理論可行」變成「實際可用」。 對於整個數位內容產業——無論是遊戲、電商、XR,還是建築視覺化—— 這都是一個值得密切關注的技術轉折點。
下一個我們期待的里程碑,是 TRELLIS 2 (或它的後繼者)何時能夠流暢運行在消費級硬體上, 以及社群的創意工程師們能不能透過微調、工具鏈整合,進一步縮短理想與現實之間的那段距離。 這場 3D 生成的革命,才剛剛開始。