NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的現(xiàn)已下載最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA Jetson 加速運行。開放
Black Forest Labs,現(xiàn)已下載作為全球頂尖 AI研究實驗室之一,開放剛剛為圖像生成領域帶來顛覆性變革?,F(xiàn)已下載
該實驗室的開放 FLUX.1 圖像模型憑借高質(zhì)量視覺輸出和優(yōu)秀的提示詞遵循度,引發(fā)全球業(yè)界關(guān)注?,F(xiàn)已下載現(xiàn)在,開放通過推出其最新FLUX.1 Kontext 模型,現(xiàn)已下載該實驗室從根本上改變了用戶引導和優(yōu)化圖像生成過程的開放方式。
為了獲得預期效果,現(xiàn)已下載AI 藝術(shù)家們通常需要整合多個模型架構(gòu)并配合 ControlNets 模塊,開放而這些 AI 模型有助于引導圖像生成器的現(xiàn)已下載輸出。這通常需要結(jié)合多個 ControlNets 或采用更高級的開放技術(shù),例如 NVIDIA AI Blueprint 中推出的現(xiàn)已下載 3D 引導圖像生成,這種方法通過 3D 場景粗稿確定圖像構(gòu)成。
全新 FLUX.1 Kontext 模型通過單一模型實現(xiàn)自然語言驅(qū)動的圖像生成與編輯,大幅簡化了工作流程。
NVIDIA 已與 Black Forest Labs 達成合作,通過NVIDIA TensorRT及量化技術(shù)對 FLUX. 1 Kontext [dev] 進行深度優(yōu)化,使其在NVIDIA RTX GPU上實現(xiàn)更快的推理速度與更低的 VRAM 顯存需求。
對于創(chuàng)作者和開發(fā)者而言,通過 TensorRT 優(yōu)化,RTX 設備可帶來更快的編輯速度、更流暢的迭代和更強大的控制。
FLUX.1 Kontext [dev]:語境感知圖像生成
Black Forest Labs 于五月推出 FLUX.1 Kontext 系列圖像模型,該模型同時接受文本和圖像提示。
該系列模型支持用戶基于參考圖像進行創(chuàng)作,并使用簡單的語言進行編輯,無需通過微調(diào)或使用多 ControlNet 的復雜工作流。
FLUX.1 Kontext 是一種專為圖像編輯構(gòu)建的開放式生成模型,其引導式、逐步生成架構(gòu)支持從局部細節(jié)到全局場景轉(zhuǎn)換的精準控制。由于該模型接受文本和圖像雙輸入,讓用戶可以輕松引用視覺概念,并以自然、直觀的方式引導其創(chuàng)作。這可以實現(xiàn)連貫且高質(zhì)量的圖像編輯,同時忠實于原始概念。
FLUX.1 Kontext 的關(guān)鍵功能包括:
角色一致性:確保人物特征在多鏡頭多視角下保持統(tǒng)一。
局部編輯:在不改變圖像其他部分的情況下,修改特定元素。
風格遷移:將參考圖像的風格和氛圍應用于新場景。
實時性能:低延遲生成支持快速迭代和反饋。
Black Forest Labs 先前正式在 Hugging Face 平臺上發(fā)布 FLUX.1 Kontext 模型權(quán)重,并同步推出經(jīng)過 TensorRT 加速優(yōu)化的專用版本。
三組對照圖像展示了 FLUX.1 Kontext [dev] 的多輪編輯能力:同一餐桌場景經(jīng)多次修改,但始終保留原始花卉元素。原始圖像 (左);首次編輯將其轉(zhuǎn)換為包豪斯風格的圖像 (中);第二次編輯采用柔和色調(diào)的調(diào)色板改變了圖像的色彩風格 (右)。
傳統(tǒng)上,高級圖像編輯需要復雜的指令,并且難以創(chuàng)建遮罩層、深度圖或邊緣圖。FLUX.1 Kontext [dev] 引入了一種更加直觀且靈活的界面,將逐步編輯與用于擴散模型推理的尖端優(yōu)化相結(jié)合。
[dev] 模型強調(diào)靈活性與控制力。該系統(tǒng)支持角色一致性、風格保留和局部圖像調(diào)整等功能,并集成了 ControlNet 功能,實現(xiàn)結(jié)構(gòu)化視覺提示。
FLUX.1 Kontext [dev] 現(xiàn)已登陸 ComfyUI 及 Black Forest Labs Playground 平臺,其搭載 NVIDIA NIM 微服務版本預計將于八月正式發(fā)布。
專為 RTX 優(yōu)化并采用 TensorRT 加速技術(shù)
FLUX.1 Kontext [dev] 通過簡化復雜的工作流程來加速創(chuàng)意。為了進一步簡化工作并擴大可訪性,NVIDIA 與 Black Forest Labs 合作:通過模型量化,降低 VRAM 顯存需求,使更多用戶能在本地運行該模型,并采用 TensorRT 對其進行優(yōu)化,使其性能翻倍。
量化處理后,F(xiàn)P8 的模型大小從 24GB 減小至 12GB (Ada),F(xiàn)P4 的模型大小從 24GB 減小至 7GB (Blackwell)。
TensorRT 是一個利用 NVIDIA RTX GPU 中 Tensor Core 實現(xiàn)最大化性能的框架,與使用 PyTorch 運行原始 BF16 模型相比,能夠提供超過兩倍的加速效果。
敬請訪問 NVIDIA 技術(shù)博客,了解更多關(guān)于 NVIDIA 優(yōu)化以及 FLUX.1 Kontext [dev] 入門指南。
開始使用 FLUX.1 Kontext
FLUX.1 Kontext [dev] 可在 Hugging Face(Torch 和 TensorRT)平臺下載。
對這些模型測試感興趣的 AI 愛好者可以下載 Torch 版本,并在 ComfyUI 平臺上部署使用。Black Forest Labs 還提供一個在線測試平臺用于測試該模型:
針對高級用戶和開發(fā)者,NVIDIA 正在開發(fā)示例代碼,方便將 TensorRT 流水線輕松集成到工作流程中。請在本月后期查看 DemoDiffusion 倉庫。
等等,還不止這樣
Google 前不久宣布推出 Gemma 3n,這是一款新型多模態(tài)小語言模型,非常適合在用于邊緣 AI 和機器人技術(shù)的 NVIDIA Jetson 平臺上運行。
AI 愛好者可以在 Ollama 和 llama.cpp 框架中,借助 RTX 加速,使用 Gemma 3n 模型,并通過他們喜歡的應用程序,比如 AnythingLLM 和 LM Studio,輕松體驗和開發(fā) AI 功能。
此外,開發(fā)者可通過 Ollama 框架輕松部署 Gemma 3n 模型,并充分利用 RTX 加速優(yōu)勢。