最近的熱點實在太多了,當 Gemini 的文生圖模型更新出來時,原以為只是平平無奇的小更新——萬萬沒想到,屬實是個大招。 在此之前,要么用 Stable Diffusion,要么走回 Photoshop 老路,反正還沒有哪個模型,可以用如此簡單的對話,就完成如此精細的修改。 Gemini 率先突破可控性這件事并不令人意外,二月時,Google 就推出了最新一代的圖像生成模型 Imagen 3,當時就強化了提示詞的跟隨功能。 當時還只面對付費用戶,現(xiàn)在在 AI Studio 中已經(jīng)可以看到更完整豐富的呈現(xiàn)。可以說,在目前文生圖的可控性程度,以及相對應的用戶體驗上,Gemini 的確做到了無人能出其右。 下面我們會具體解釋為什么這樣下結論。同時在測試過程中,我們也發(fā)現(xiàn)了一些使用技巧,一并奉上。 可控性不好?不存在了 誠實的說,單純講生成還是有一點不穩(wěn)定,但是 Gemini 2.0 Flash Experimental 展示出了堪稱逆天的修改可控性。 下面這組花田圖里,使用了 Imagen 3 的官方實例:Impressionistic landscape painting of a sunset over a field of sunflowers, vibrant colors, thick brushstrokes, inspired by Monet。 中間的修改提示詞,是為了把天空換成藍綠色:turn the clouds at the back of the picture in to blue-greenish color 注意看中間圈出來的地方,花田和天空過渡處的油彩,基本沒有變化——模型充分理解這個修改提示詞里「局部改色」的意圖,只對天空局部改動,其它任何地方都保持了不變。 接下來這組城市街景的例子更明顯,生成提示詞:generate a Tokyo street crossroad, cars passing the traffic light and people walking around 細部有些地方還是不太能看的,生成這一步的不穩(wěn)定性還是沒有被完全馴服。真正有驚人改變的,是細部的指令跟隨。 「我想要變成夜景」「街上應該有燈光」,提示詞可以非常直給就完成修改。來感受一下四輪對話之后,形成的整體變化對比。 四張圖漸次展示了城市從白天、黃昏、傍晚、再到夜晚的樣子。而在四輪對話中,說改車就改車,不說改動行人就保持原樣——不可控性不存在了! Tip:生成+修改最穩(wěn)定 局部修改的功能,如果是在現(xiàn)有圖片上改動,效果沒那么好,比較粗暴。下面是兩張現(xiàn)圖改夜景的例子。 最穩(wěn)定的組合是從生成到修改,一條龍完成,在后續(xù)的修改里可控性就更高。 整體變化,一句話完成 除了局部改動,還可以改動視角,這也是非常實用的功能。對于短片的故事板、產(chǎn)品多視角展示,都相當有幫助。 產(chǎn)品圖的修改真正做到了隨心所欲。 要描述的是圖片最終的樣子,而不是修改圖片的過程 Gemini 理解模糊指令是沒問題的,只是需要注意一下模糊的「方式」。 比如想變換鏡頭視角,要描述的應該是最后形成的結果,如「從左邊拍攝的樣子」,而不是「鏡頭移動到左邊」。這畢竟還是一個靜態(tài)文生圖,并不能呈現(xiàn)鏡頭移動。 換句話說,指令越簡單直給反而越好。 一進入 Stduio 還有一個官方示例是做一張生日卡片,可以直接嘗試。不過,想要更高的可控性,最好復制粘貼了之后,自己新建一個對話。 接下來我修改了里面的元素,花朵被替換成星球,再簡單做個 3D 效果。 然后,我對 Gemini 給出了那個最震撼的指令:我要五彩斑斕的黑。 等待時間來到了一百多秒 在等待的過程中,還有兩個必須提醒的地方: 一些基礎設置必不可少 進入 Studio 之后,需要在右側 Model 一欄,選擇最新的 Gemini 2.0 Flash Experimental。 成功進入后,記得左側的 Library 一欄,設置一下賬號關聯(lián)生成 Library,否則有可能無法保存會話。 最后來看下, Gemini 想明白了怎么改黑色了嗎? 500s 過去了,毫無動靜——AI 還是理解不了五彩斑斕的黑! 本文來源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選