CoF – DeepMind推出的視覺模型思維鏈

智能 2025-10-05 18:08

聲明：該文章來自（AI工具集）版權(quán)由原作者所有，K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。

CoF是什么

CoF（Chain-of-Frames，幀鏈）是DeepMind推出的新概念，類比于語言模型中的“鏈?zhǔn)剿季S”（Chain-of-Thought，CoT）。CoF使視頻模型能在時(shí)間和空間上進(jìn)行推理，通過逐幀生成視頻解決復(fù)雜的視覺任務(wù)。例如，Veo 3模型用CoF解決迷宮問題、完成對稱性任務(wù)或進(jìn)行簡單的視覺類比推理，能力類似于語言模型通過符號推理解決問題，CoF是通過生成連貫的視頻幀實(shí)現(xiàn)視覺推理，展示了視頻模型在通用視覺理解方面的潛力。

CoF的主要功能

視覺推理：通過逐幀生成視頻，CoF能逐步解決問題，例如在迷宮中找到路徑、完成對稱性任務(wù)或進(jìn)行視覺類比推理。
跨時(shí)空操作：對視頻中的對象進(jìn)行操作，例如移動、變形或改變對象的屬性，同時(shí)保持視頻的連貫性。
通用視覺理解：CoF幫助視頻模型理解物理規(guī)則、抽象關(guān)系及視覺世界的動態(tài)變化，實(shí)現(xiàn)通用視覺任務(wù)的零樣本學(xué)習(xí)。
生成連貫視頻：CoF確保生成的視頻在時(shí)間和空間上是連貫的，使模型能生成符合邏輯和物理規(guī)則的視頻內(nèi)容。

CoF的技術(shù)原理

生成模型：CoF依賴大規(guī)模的生成模型，模型通過海量數(shù)據(jù)進(jìn)行訓(xùn)練，學(xué)習(xí)視頻的時(shí)空結(jié)構(gòu)和動態(tài)變化。
提示驅(qū)動：通過自然語言提示（prompt）和初始圖像，模型被引導(dǎo)生成符合任務(wù)要求的視頻。提示幫助模型理解任務(wù)目標(biāo)，初始圖像提供視頻的第一幀。
逐幀推理：模型逐幀生成視頻，每一步都基于前一幀的狀態(tài)和提示進(jìn)行推理。逐幀生成的方式類似于語言模型中的鏈?zhǔn)剿季S（CoT）。
物理和邏輯約束：CoF生成的視頻需要符合物理規(guī)則和邏輯一致性。例如，物體的運(yùn)動需要符合物理定律，視頻中的對象不能違反現(xiàn)實(shí)世界的約束。
優(yōu)化和反饋：通過多次嘗試和優(yōu)化，模型能生成更準(zhǔn)確的視頻。例如，通過多次生成、選擇最優(yōu)結(jié)果，提高任務(wù)的成功率。