全面升級的“新清影”，給AI生成視頻帶來了哪些新玩法？

新視界作者 Alter / 砍柴網 / 2024-11-09 18:30

作者：Alter

就在剛剛，智譜清言App上線了“新清影”，同時對外開源了智譜最新的圖生視頻模型CogVideoX v1.5。

3個多月前的智譜Open Day上，視頻創作智能體清影正式在智譜清言上線，只需30秒即可生成時長6秒、1440x960清晰度的高精視頻，隨即涌現出了短視頻、表情包梗圖、廣告制作等創新玩法。

短短一個多月的時間，智譜就將清影背后的圖生視頻模型CogVideoX 2B和5B版本給開源了，可以在消費級顯卡上流暢運行，陸續衍生出了CogVideoX-factory等大量二次開發項目。

經過3個多月打磨和進化的“新清影”，都有什么能力上的提升，又將帶來哪些有趣的新體驗呢？

我們有幸拿到了提前內測的資格，下面和大家一起來揭曉答案。

01 更高清、更快速、更逼真的圖生視頻

在和多位內容創作者的溝通中，我們了解到：相較于文生視頻的趣味性，大家對圖生視頻有著更高頻的需求，因為圖生視頻進一步提高了生成視頻的控制和一致性，可以快速生成可用的視頻素材。

“新清影”的第一個亮點，正是“圖生視頻”能力的全面提升，確切地說可以歸納為四個方面：

一是4K超高清分辨率，相較于清影6秒、1440x960的清晰度，“新清影”支持生成10s、4K、60幀超高清視頻。

二是可變比例，用戶可以上傳任意比例的圖像生成視頻，哪怕是超寬畫幅，都可以生成對應比例的視頻。

三是多通道生成能力，以往的圖生視頻類產品，一次只能生成一個，“新清影”可以一次性生成4個視頻。

四是模型能力的提升，CogVideoX在內容連貫性、可控性和訓練效率等方面實現了多項創新，讓“新清影”的圖像質量、美學表現、運動合理性、復雜提示詞的語義理解等能力顯著提升；同時有著更強的人物面部、表演細節、動作連貫性和物理特性模擬。簡而言之就是更加自然和逼真。

前三個方面的提升很容易判斷，需要驗證的創新點恰恰是視頻質量和逼真度，也是視頻生成類產品最核心的價值。于是我們找到了幾組圖片，輸入對應的提示詞，來驗證“新清影”是否言過其實。

第一組照片是站在木樁上的倉鸮，后面的背景被虛化了，給出的提示詞也很簡單——“讓圖片中的動物動起來”，以此來驗證“新清影”在運動合理性、動作連貫性和圖像質量等方面的表現。

視頻的整體表現可圈可點，倉鸮轉頭的動作自然連貫，每一根毛發、每一道紋路、每一處細節都清晰可見。即使背景做了虛化處理，也能感受到有風吹動樹葉，倉鸮腳上的綁帶也在隨風晃動，近乎可以充當真實拍攝的視頻。

第二組是一張在雪地里行駛的汽車，在構圖上比前面要復雜的多，主體是一臺黑色汽車，遠處隱約可見一片森林，同時在提示詞上也更復雜一些——“在雪地里彈射起步的汽車，掀起了滾滾煙塵”。

這次生成的視頻超出了我們的預期：盡管汽車有一點點形變，但起步時輪胎轉動濺起的殘雪、汽車起步的速度、汽車駛遠后逐漸消失的煙塵等等，都遵循了物理規律，甚至可以清晰的看到遠處被汽車遮擋的樹木，并且符合冬天的場景。

做一個總結的話，“新清影”生成的視頻在畫面上高度還原了輸入圖像，光影和色調自然地融入了場景中，視頻的自然度和逼真度極大提升。更重要的是，視頻生成不再需要不停“抽卡”和二次剪輯，生成的素材幾乎可以直接使用。

02 “無聲視頻”一步跨越到“有聲時代”

“新清影”的另一大亮點，在于即將上線的音效功能。

目前AI生成的視頻還處于“默片”時代，抑或是人為添加一段背景音樂，并沒有解決音效問題。“新清影”即將填補市場空白，可自動生成與畫面匹配的音效，讓AI視頻一步跨越到了“有聲時代”。

為了驗證音效功能的效果，我們從Pixabay上下載了三段無聲的視頻片段，然后用智譜的音效模型CogSound匹配了音效。

第一個片段是田野中工作的收割機，并不是一個常見的場景，但CogSound準確生成了拖拉機轟隆隆的引擎聲，音效和畫面的連貫性、平滑過渡完成地很好，讓人仿佛置身于秋收的熱鬧場景里。

第二個片段是篝火旁倒水的場景，CogSound的表現再次令人驚艷，一開始是木柴燃燒的噼啪聲響，在水倒出的時候，恰如其分地出現了倒水的聲音，聲音和畫面幾乎沒有任何偏差和失配。

第三個片段是大雪中站在木樁上的鳥，也是一個語義理解的“陷阱”，很可能會出現音效的錯配，譬如森林里的鳥鳴聲。結果超出了我們的想象，可以聽到風雪天熟悉的“白噪音”，并且伴隨著嘈雜的鳥叫。

如果說“新清影”的圖生視頻能力，解決了內容創作中對高質量素材的需求，音效功能上線后，進一步讓外界看到了更大的應用空間。

比如電影中大規模戰斗、災難等場景，現在可以直接用AI生成音效，不僅將縮短制作周期，還將極大地降低制作成本，在提升產能和效率的同時，加速電影制作從流水線時代進入到智能化時代。

再比如游戲、廣告等內容的音效制作，過去需要專業的技術團隊，利用專業的設備才能完成，現在只需要一個音效模型CogSound。創作門檻的降低，對一個行業繁榮度的催化作用不言而喻。

可能很多人會產生這樣的疑問：既然音效制作是一個復雜的系統性工程，CogSound是怎么實現的？

這里就涉及到大模型中常用的Diffusion架構。

核心思想是將擴散過程從高維原始音頻空間轉移到低維潛空間中進行，可以在保持生成質量的同時，實現高效的音頻合成。

智譜的研發團隊采用了基于Unet的Latent Diffusion潛空間擴散，同時引入分塊時序對齊交叉注意力機制，在架構中整合了旋轉位置編碼技術，確保了生成音效與視頻內容在語義上的高度一致，并在連貫性和平滑過渡方面效果顯著。

通俗一些的解釋，智譜的CogSound是這樣工作的：

先基于GLM-4V的視頻理解能力，準確識別并理解視頻背后的語義和情感，再由音頻模型根據視頻內容生成音效、節奏，甚至是復雜的混合音效，包括爆炸聲、水流、樂器、動物叫聲、交通工具的聲音等等。

03 內容創作“All in One”已不再遙遠

年初視頻生成模型剛誕生時，吸引了無數人的興趣，其中暢想最多的一個方向，正是越來越多人參與到視頻內容的生產創作。

可惜到目前為止，大多數產品還只是生成短小片段的“創意玩具”，在社交平臺上進行輕量化的應用，和生產力仍然有相當大的距離：需要花費大量的時間進行視頻剪輯和合成，才能制作出一個看起來還行的短視頻。

對于其中存在的癥結，可以大致分為兩個方面：

一個是模型本身的能力局限，比如語義理解能力，能否準確理解用戶的指令；視頻生成效果，涉及畫面流暢度、人物穩定性、動作連貫性、光影一致性、風格準確性等等；以及生成視頻的時長和分辨率。

另一個是產品的易用性，相較于PR、AE等專業的制作工具，AI生成視頻極大地降低了門檻，只需輸入簡短的指令，即可實現豐富的效果。但距離普通小白快速生成高質量視頻，還有很長一段路要走。

樂觀的是，技術的每一次迭代，都讓理想離用戶更近一步。

以智譜為例，不到一年時間里，就在視頻時長、生成速度、分辨率、一致性等方面實現了長足的進步，驗證了scaling law在視頻生成方面的有效性，不排除模型能力在很短時間里再一次創新升級的可能。

畢竟3個多月前的清影，還是國內最早全量上線 C 端、人人可用的生成視頻功能，剛剛實現技術的從0到1，僅一個季度就完成了能力的全面升級。在這個“技術大爆炸”的時代，所有的技術難題，在根結上不過是時間早晚的問題。

而在產品易用性上，也傳出了一些利好的“小道消息”。

聯想到智譜在半個月前上線的情感語音模型GLM-4-Voice，和“新清影”一同亮相的音效模型CogSound、音樂模型CogMusic，已然構建了基于 GLM 原創可控技術的，覆蓋文本、圖像、視頻和聲音的多模態模型矩陣。

于是我們進行了進一步的測試：讓“新清影”將圖片生成視頻，同時用CogSound給視頻生成對應的音效。

除了效果依舊讓人驚艷，更直觀的體驗是效率，整個過程只有幾分鐘的時間。可以預見，將照片素材批量生成自帶音效的視頻，或是接下來一段時間里一個重要的應用方向。

進一步猜測：是否存在用工具流同步調用多個模型，只需一個指令就能生成畫面和音效同步的視頻呢？

借用智譜官方的表態來看：“我們的理想狀態是，只需一個好的創意，剩下的事AI都能輔助搞定，輕松將一個 idea、一張圖，變成一段自帶 bgm 的影片。”言外之意，從腳本、視頻畫面到聲音和音效，過去需要整個團隊分工協作完成的任務，以后都可以交給大模型，實現全流程自動化。

一個All in One的視頻創作平臺，注定不再遙遠。

04 寫在最后

也許過不了多久，短視頻的創作模式就將被重構。

創作者們不再需要親自出鏡，不再需要奔赴拍攝地點；只要通過語言清晰描述自己所需的場景與內容，就可以輕松批量生成符合需求的短視頻。

內容創作不再拘泥于專業群體，普通用戶也可以通過簡單、直觀的工具，用AI視頻表達自己的創意和想法。

這是大模型的機會，也是所有創作者的機會。

分享到

聲明：砍柴網尊重行業規范，任何轉載稿件皆標注作者和來源；砍柴網的原創文章，請轉載時務必注明文章作者和"來源：砍柴網"，不尊重原創的行為將受到砍柴網的追責；轉載稿件或作者投稿可能會經編輯修改或者補充，有異議可投訴至：post@ikanchai.com

您想第一時間獲取互聯網領域的資訊和商業分析，請在微信公眾號中搜索"砍柴網"或者"ikanchai"，或用微信掃描左邊二維碼，即可添加關注，從此和砍柴網建立直接聯系。

全面升級的“新清影”，給AI生成視頻帶來了哪些新玩法？

相關推薦

最新文章

熱文導讀

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產 Apple Car 汽車電池

關注我們

全面升級的“新清影”，給AI生成視頻帶來了哪些新玩法？

相關推薦

最新文章

熱文導讀

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產 Apple Car 汽車電池

關注我們

全面升級的“新清影”，給AI生成視頻帶來了哪些新玩法？

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！