穩定AI推出新一代開源影像生成模型3.5

Ai

**Stability AI 推出新一代開源 Stable Diffusion 3.5 文本生成圖像 AI 模型**

生成式人工智能初創公司 Stability AI Ltd. 今日宣佈推出 Stable Diffusion 3.5,包括三款新一代開源文本生成圖像 AI 模型。

公司在公告中表示:「今年六月,我們推出了 Stable Diffusion 3 Medium,這是該系列的首次公開發佈。然而,這次發佈未能完全達到我們的標準或社群的期望。聽取了社群的寶貴反饋後,我們選擇不急於修正,而是花時間進一步開發一個版本,以推進我們改變視覺媒體的使命。」

此次發佈的三個模型包括 Stable Diffusion 3.5 Large、3.5 Large Turbo 和 3.5 Medium。每個版本都為科學研究人員、業餘愛好者和企業客戶提供更高程度的定制化和本地及雲端部署的可及性。

Large 是一個擁有 80 億參數的模型,專為高質量圖像生成而設計,適合專業用戶尋求 1 百萬像素分辨率的圖形,適用於製作生動的圖像和數字資產以用於營銷活動等企業用途。

Large Turbo 是 3.5 Large 的精簡版,僅需四步即可生成高質量圖像,速度比原版快得多。該版本旨在快速生成圖像而不失質量,非常適合需要快速生成的工作流程。Stability AI 表示,Turbo 在圖像生成速度上在業界處於領先地位,並且在圖像質量和對提示的遵從性方面保持競爭力,即使與相同尺寸的非精煉模型相比亦如此。

新的 Stable Diffusion 3.5 Medium 擁有 26 億參數,Stability AI 表示它構建了一個改進的架構和訓練方法,在質量和定制化之間取得平衡。該模型能夠有效地生成 0.25 至 2 百萬像素分辨率的圖像,並優化以在標準消費者硬件上運行而不造成過重負擔。

在開發這些模型時,公司使用了 AI 變壓器中的 Query-Key Normalization 來幫助優先考慮定制化和簡化微調。這樣,開發者可以更輕鬆地通過標記輸入來定制他們的模型,同時也意味著模型更好地遵從特定的自然語言提示。與此同時,缺乏具體措辭的提示更有可能產生更廣泛的圖像輸出。

公司表示:「為了支持這種下游的靈活性,我們必須做出一些取捨。使用相同提示但不同種子的輸出可能會出現更大的變化,這是故意的,因為它有助於保留基本模型中的更廣泛的知識庫和多樣化風格。然而,結果是,缺乏具體性的提示可能會導致輸出的不確定性增加,審美水平可能會有所不同。」

Stability AI 表示 Stable Diffusion Medium 3.5 將於 10 月 29 日推出。所有模型均為開源,並可通過公司的社群許可證免費用於非商業用途,商業用途年收入達到 100 萬美元後需洽詢企業許可證。

模型權重將很快在 Hugging Face 上提供自我託管。它們也可以通過 Stability AI 應用程式介面以及 Replicate、Fireworks 和 ComfyUI 獲取。在接下來的幾天內,這些模型的 ControlNets 也將發佈,為新模型提供高級控制。

**評論:**

Stability AI 的這次發佈代表著生成式人工智能領域的又一重大進步。通過聽取社群反饋並進行改進,他們展示了對開源社群的承諾,這不僅有助於提升模型的質量,也促進了技術的普及和應用。這次的三個模型版本針對不同用戶群體的需求進行了優化,這種多樣化策略可能會吸引更多的用戶參與到這個開放平台中。尤其是 Large Turbo 的高效能和 Medium 的硬件友好性,使得這項技術更易於進入日常應用。隨着技術的持續演進,如何平衡模型的多樣性和特定性將是未來需要面對的挑戰。這次的發佈不僅是技術上的進步,也反映了 AI 技術在市場應用中的策略性擴展。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *