可靈2.6模型推出「音畫同出」能力 重構AI視頻創作工作流

香港2025年12月5日 /美通社/ — 領先的內容社區及社交平台快手科技(「快手」或「公司」;港幣櫃台股份代號:01024 / 人民幣櫃台股份代號:81024)宣佈,12月3日,可靈推出視頻生成2.6模型,該模型提供了里程碑式的「音畫同出」能力,徹底改變了傳統AI視頻生成模型「先無聲畫面、後人工配音」的工作流程。它能夠在單次生成中,輸出包含自然語言、動作音效以及環境氛圍音的完整視頻,重構了AI視頻創作工作流,極大提升創作效率。 

重構AI視頻創作工作流 中文語音生成效果全球領先 

可靈2.6模型升級了文生音畫、圖生音畫兩大功能,輸入文本或是輸入圖片結合提示詞文本,均可直接生成帶有語音、音效及環境音的視頻。語音當前支持生成中文以及英文,生成視頻長度最長支持10秒。

該升級重構了傳統AI視頻創作「先生成無聲的視頻,再結合其他軟體完成後期聲音製作」的工作流,創作者使用可靈2.6模型,能夠直接生成包含人聲、環境與效果音效的視頻,極大提升了創作者的工作效率。 

通過對物理世界聲音與動態畫面的深度語義對齊,可靈2.6模型在音畫協同、音频質量和語義理解上表現亮眼。

音畫協同上,可靈2.6模型生成的視頻,在語音節奏、環境音與畫面動作上緊密呼應,實現了對畫面動態與聲音節奏的深度對齊,避免了傳統工作流可能產生的「畫面一套、聲音一套」的割裂體驗。

音頻品質上,在支持人聲、音效、環境聲等多類型聲音生成的基礎上,生成的音頻音質更乾淨、層次更豐富,整體聽感更接近真實的混音效果,滿足專業級創作對聲音細節的高要求。

語義理解上,該模型對多種場景下的文本描述、口語表達和複雜劇情有較強的語義理解能力,能夠更準確地把握創作者意圖,從而輸出邏輯更嚴密、更貼合用户需求的音畫內容。同時,可靈2.6模型在中文語音生成效果上保持全球領先。

一鍵「音畫同出」 廣告營銷、自媒體、電商等創作場景迎來效率革命

可靈2.6模型支持的聲音類型包括說話、對話、旁白、唱歌、Rap、環境音效、混合音效等多種聲音的單獨或混合生成,能夠廣泛地應用於廣告營銷、自媒體、電商等行業的視頻內容創作,極大提升創作效率。 

例如在廣告營銷行業,可靈2.6模型能夠一鍵生成含有旁白介紹、演員對白、商品展示等綜合聲音效果的廣告短片,極大降低廣告片拍攝的成本,提升效率。 

在自媒體領域,可靈2.6模型的應用則更加廣泛。通過多人對白能力,創作者可以創作包含訪談節目、劇情演繹、搞笑短劇等多類型的內容創作,還可以借助模型的音樂表演能力,進行唱歌、說唱表演、樂器演奏等類型的內容創作。運用可靈2.6模型,可大幅度降低自媒體創作者的創作成本與難度。

在電商領域,通過單人獨白、旁白解說等能力,可靈2.6模型能夠完成商品展示、產品講解等電商領域的視頻內容創作,提升商家的經營效率。 

可靈2.6模型的推出,進一步降低了內容創意行業視頻創作的成本與難度,未來可靈AI也會持續開發更多實用功能,為創作者提供更優質、便捷的AI視頻創作工具。 

關於快手

快手作為中國乃至全球領先的內容社區及社交平台,致力於成為全球最癡迷于為客戶創造價值的公司。作為一家以人工智能為核心驅動和技術依託的科技公司,快手專注於通過持續的技術創新和產品升級,不斷豐富服務和應用場景,為客戶創造價值。在快手,用戶通過短視頻和直播來記錄和分享他們的生活,發現所需,發揮所長。通過與內容創作者和企業緊密合作,快手提供的技術、產品和服務可滿足用戶的多元化的需求,包括娛樂、線上營銷服務、電商、本地生活、遊戲等。

前瞻性聲明

除過往事實的陳述外,本新聞稿載有若干前瞻性陳述。前瞻性陳述一般可透過所使用前瞻性詞彙識別,例如「或會」、「可能」、「可」、「可以」、「將」、「將會」、「預期」、「認為」、「繼續」、「估計」、「預計」、「預測」、「打算」、「計劃」、「尋求」或「時間表」。該等前瞻性陳述受風險、不確定因素及假設的影響,可能包括業務展望、財務表現預測、業務計劃預測、發展策略及對我們行業預期趨勢的預測。該等前瞻性陳述是根據本集團現有的資料,亦按本新聞稿刊發之時的展望為基準,在本新聞稿內載列。該等前瞻性陳述是根據若干預測、假設及前提作出,當中許多涉及主觀因素或不受我們控制。該等前瞻性陳述或會證明為不正確及可能不會在將來實現。該等前瞻性陳述涉及大量風險及不明朗因素。鑒於上述風險及不明朗因素,本新聞稿內所載列的前瞻性陳述不應視為董事會或本公司聲明該等計劃及目標將會實現,故投資者不應過於依賴該等陳述。除法律要求的情形外,我們並無責任公開發佈可能反映本新聞稿日期後發生的事件或情況或可能反映意料之外事件的該等前瞻性陳述的任何修訂。

投資者及媒體問詢
快手科技
投資者關係
郵箱:ir@kuaishou.com