為什麼有時候叫 AI 產生圖片,人物要做特定動作,比方說「頭轉向其左邊看」,結果 AI 都無法產生轉頭的人物?
因為 AI 並不是在讓模特兒轉頭,而是在從影像資料庫中拚湊一張「看起來合理的臉」。而「轉頭」這件事,對 AI 來說在機率空間裡反而是模糊、邏輯矛盾風險很高的。
對人類來說,叫人物頭轉左邊看,涉及三度空間與自我視角的概念;但對於 AI 生成影像來說,它看到的是「人臉」、「側臉」、「看某個方向」。AI 沒有身體座標的概念,所謂的「左轉」往往會轉換成鏡頭的左、畫面的左、角色的左。最後,AI 逼不得已只能產生邏輯上最安全的結果:給你一張正面的臉,或是一張側面的臉。
在 AI 的圖像資料庫裡,正面的臉最多,微側面也有,但是轉頭的、特定姿勢的卻很少。要產生正確的「頭轉一邊」,需要很多條件才能同時成立,例如眼睛、鼻子、嘴巴、頸部的肌肉等等;任何一項不吻合,就可能產生臉部融化、恐怖谷的現象。
聽起來有點反直覺:當我們給 AI 下越明確的指令,往往失敗率會越高。
- 漂亮的女性肖像,成功率高。
- 漂亮的女生「頭朝左邊轉頭看鏡頭」,成功率卻會變得爆低。
那麼,要怎樣才能產生特定動作的人物呢?
給 AI 下指令時,要關注於「畫面」,而非「動作」。描述鏡頭,而非人的主觀行為。你可以說「左側三分之四側臉」,或是「朝左的三分之四側面」,這樣成功率就會大幅提升。
有點麻煩,對嗎?其實這不是你的問題,這是整個世代的 AI 問題。這個侷限性是 AI 視覺空間的天花板,也就是 AI 本身的侷限性。
[相關資訊]

No comments:
Post a Comment