現在,句話Adobe不想讓你用手P圖了——動動口就行。克得開源
只需要你說一句話,留掃計算機就能P出你想要的項目效果。
例如,句話說出想要的克得開源發型,馬斯克就會立刻被剃頭:“Hi-top Fade(掃把頭),留掃變!項目”
膚色、句話妝容也都能輕松改變,克得開源一句“face with/without makeup”就能上妝/卸妝:
△給霉霉上妝/卸妝
甚至還能直接改變人樣,給小李子變出胡子、金發后,變成特朗普!
除了人,動物、景物也能P。
輸入“cute cat”,就能讓圖中的貓變成“大眼萌貓”:
說一句“classic car”,它就能把你的車P成經典古老的車型,還能手動調復古程度:
簡直是手殘P圖玩家的福音。
沒錯,這是來自Adobe、希伯來大學、特拉維夫大學的新操作,只需要一句話,就能讓計算機“修”出你想要的圖片。
現在,項目已經開源。
當GAN遇上CLIP
這一神奇的操作,來自一種新算法:StyleCLIP。
沒錯,就是將目前最先進的GAN——StyleGAN,和OpenAI搞出來的CLIP模型結合到一起。
為何選擇這兩個模型?
其中,CLIP不能自己生成圖像,但具有很好的圖像分類效果。
它不僅可以理解輸入的詞語,還能將語義和圖像特征聯系起來。
也就是說,CLIP有著和人腦極為相似的工作方式,不僅能將CV和NLP從技術上打通,還給他們分配了專門的處理區域。
例如,一旦聽到“蜘蛛俠”三個字、或是看到蜘蛛俠的照片,CLIP的某個特殊區域就開始響應,甚至原本用來響應紅色和藍色的區域也會“躁動”。
而StyleGAN,雖然能實現照片級模擬,生成非常逼真的圖像:
但StyleGAN、StyleGAN2等一系列GAN模型,卻沒辦法獨立更改如面部外觀、形狀或表情等參數,只能像下面這樣,從整體、中等、微調等大方向去改變形象:
如果將CLIP和StyleGAN合成新模型,只需要一句文本信息,它就能幫你P出既逼真、又能控制細節的圖像來。
點點鼠標,就能調整效果
事實上,模型的效果也確實不錯,功能非常全面。
還自帶一個圖形界面窗口:用一句話說出需求后,用鼠標就能進行調節。
例如,一鍵將英國首相鮑里斯·約翰遜(Alexander Boris de Pfeffel Johnson)變成女人:
還能讓他愁眉不展、或是開口大笑:
不僅能記住一整個人的面部特征,并根據需要換臉、換頭發、換妝;還能應用在動物身上,甚至將老虎變成獅子:
當然,將普通的房子變成哥特式(gothic)建筑也行。
在單個NVIDIA GTX 1080Ti GPU上,進行全局預處理的時間是4個小時。預處理后,就能將不同的文本-圖像對應用在上面了。
至于訓練的時間,則需要跑10~12個小時,加上優化器后的推理時間是98秒。
那么,模型的穩定性如何?
即使背景人物不同,在用一句話P圖后,它們之間的相似度也能達到73%以上,最高能達到84%。
也就是說,模型改變特征的效果還是很穩定的。
當然,即使測試效果很好,網友們還是發現了一些圖片生成的bug。
例如,網友發現,長著胡子的男性,看起來要比沒有胡子的男性更生氣?
有網友在測試后表示,個別效果如“加深男性膚色”(tanned man)確實不夠好,需要進行數據清洗。
除此之外,也有網友建議作者嘗試進一步研究,如模型中的偏見性。
例如,試試“成功的男人/女人”、“罪犯”等形容詞,看看這個模型會生成什么。
作者介紹
一作Or Patashnik,來自特拉維夫大學(Tel-Aviv University),主要研究方向是計算機視覺。
共同一作吳宗澤(Zongze Wu),來自希伯來大學(Hebrew University of Jerusalem),主要研究方向是計算機視覺,包括GAN、圖像處理、圖像翻譯等。
三作Eli Shechtman,來自Adobe,研究方向是計算機視覺,包括視頻分析與合成、目標和動作識別、圖形視覺、圖像和視頻檢索等。
此外,來自特拉維夫大學的Daniel Cohen-Or、和希伯來大學的Dani Lischinski對這篇論文也有貢獻。
說不定,Adobe真會將“動口P圖”這一功能放進PS中呢。
項目地址:
https://github.com/orpatashnik/StyleCLIP
論文地址:
https://arxiv.org/abs/2103.17249
出处:头条号 @量子位