
視聯網作為新型基礎設施,通過進一步構建全鏈路高清視頻和多模態智能交互結合,推動產業數字化高質量(liàng)發(fā)展(zhǎn)。2025年(nián),隨(suí)著(zhe)生(shēng)成(chéng)式(shì)AI與(yǔ)大(dà)模(mó)型(xíng)的(de)爆(bào)發(fā)式(shì)發(fā)展(zhǎn),作(zuò)為(wèi)視(shì)聯(lián)網(wǎng)重(zhòng)要(yào)技(jì)術(shù)體(tǐ)係(xì)之(zhī)一(yī)的(de)大(dà)小(xiǎo)模(mó)型(xíng)協(xié)同(tóng)加(jiā)速(sù)演(yǎn)進(jìn)。大(dà)模(mó)型(xíng)提(tí)供(gōng)全局(jú)感(gǎn)知(zhī)、多(duō)模(mó)態(tài)理解與決策推理能力,小模型聚焦邊緣端低延遲、高可靠的實時處理需求,二者通過“雲邊端”分層架構形成互補共生。

1、技術演進
視聯網的核心是通過高清視頻的實時采集、傳輸與智能處理,實現物理世界與數字世界的深度融合。傳統視聯網依賴“端側采集+雲端處理”的集中式架構,隨著4K/8K超高清視頻普及、實時交互需求激增,集中式架構在算力成本、傳輸帶寬、隱私安全等方麵的瓶頸日益凸顯。在此背景下,大小模型協同技術依托端雲協同架構,推動視聯網從“被動記錄”向“主動感知、智能決策”躍遷。
1.1 視聯網“全局智能中樞”
大模型憑借強大的泛化能力與多模態理解能力,作為大小模型協同的“大腦”,主要承擔三類核心任務:
①跨模態語義解析:傳統視聯網的視頻分析多聚焦於目標檢測,而大模型通過處理對曆史數據和實時數據關鍵幀檢測、音視頻分離後的數據,生成詳細的密集文本描述,並通過融合文本、語音、傳感器等多模態數據,可實現“視頻內容的語義化理解”。在智慧城市場景中,大模型可將交通攝像頭的視頻流與氣象數據、交通管製通知關聯,自動判斷“暴雨天氣下某路段積水是否需臨時封路”,而非僅識別“車輛排隊長度”。
②長時序決策推理:大模型的長上下文窗口使其能處理跨時間維度的視頻序列,實現“因果關係推斷”。在工業質檢中,大模型通過分析大量設備運行曆史視頻,結合曆史故障數據,預測“某軸承可能在48小時後因磨損引發停機”,而非僅瑕疵質檢“當前是否有裂紋”。
③模型動態優化:大模型通過“預訓練+微調”機製,可為不同邊緣場景的小模型提供定製化能力,通過教師-學生模型架構,將大模型知識遷移至小模型。在安防場景中,大模型可基於人臉識別數據訓練通用特征提取器,再微調為適應老舊攝像頭低分辨率、夜間光照的小模型,提升邊緣端的識別準確率。
1.2 視聯網“邊緣智能觸手”
小模型聚焦端側實時處理,通過模型壓縮、知識蒸餾輕量化設計與GPU/NPU加速的硬件適配,解決大模型“雲端延遲高、邊緣算力弱”的矛盾,主要承擔三類任務:
①實時特征提取:在遠程醫療場景中,手術機器人的攝像頭每秒生成8K視頻流,若直接上傳雲端分析,延遲過高,無法滿足該參加低延時的要求。小模型可在端側完成關鍵區域的實時分割與特征提取,僅將壓縮後的特征向量上傳雲端,大大降低延。
②隱私保護計算:視聯網涉及大量敏感數據,小模型可通過聯邦學習技術在本地完成模型訓練,僅上傳梯度而非原始數據。在城市智慧社區的人臉識別係統采用小模型,各小區獨立訓練本地模型,通過聯邦學習共享人臉識別的泛化能力,避免用戶麵部信息跨區域傳輸。
③動態場景適配:不同邊緣場景的視頻特征差異顯著,小模型可通過靈活快速適應新環境。
1.3 大小模型協同模式
①能力編排:通過大小模型能力編排,基於任務複雜度自適應分配計算資源,采用動態路由算法,將文本分類任務分配給小模型,圖像生成任務觸發大模型提高資源利用率。
②串行推理:將推理流程分解為數據預處理、特征提取、決策生成等階段,各階段由不同模型處理。端側小模型處理傳感器數據,雲端大模型執行複雜任務,通過小模型初篩和大模型複核降低誤檢率。
③並行推理:首先進行數據並行,輸入數據分片由多個模型並行處理,實現多路視頻流並行分析。然後進行模型並行,大模型拆分為(wèi)多(duō)個(gè)子(zi)模(mó)塊(kuài)分布處理,任務拆分為多個子任務,實現並行加速。
1.4 雲邊端架構支撐
大小模型的協同需依賴“雲邊端”三層架構的深度解耦與智能調度。雲端負責全局數據存儲、多模態訓練、策略生成,通過協議接口為邊緣端提供能力調用;邊緣端部署輕量化模型,處理實時性要求高的任務,並將關鍵結果上傳雲端;終端負責高清視頻采集,通過硬件優化降低傳輸帶寬與計算負載。
2、核心挑戰
盡管大小模型協同已在多場景試點落地,但其規模化發展仍麵臨很大挑戰,需通過技術創新、政策引導與生態共建破解。
①算力分配矛盾
雲腦與端手的資源博弈,大模型需要高性能GPU集群支撐訓練,而小模型需邊緣端低功耗芯片適配,二者在算力分配上存在天然矛盾。需要繼續推動模型輕量化和硬件定製化。一方麵,采用知識蒸餾、稀疏化等技術壓縮模型體積;另一方麵,芯片廠商針對小模型需求開發專用AI芯片,實現“算力-功耗-成本”的最優平衡。
②數據隱私風險
本地處理與全局優化是協同任務的平衡難題,視聯網涉及大量敏感(gǎn)數據,小模型的本地處理雖能降低傳輸風險,但大模型的全局優化需要跨場景數據訓練,二者存在隱私保護的衝突。
③標準體係滯後
由於技術多樣與產業協同的機製障礙,當前視聯網大小模型協同缺乏統一標準,不同廠商的大模型接口、小模型格式、邊緣設備協議存在差異,導致係統孤島現象。需要進一步推動政策引導和行業共建。明確大模型的接口協議、小模型的輸出格式、邊緣設備的兼容性要求,加速生態融合。
3、未來展望
隨著大模型參數規模突破萬億級、小模型輕量化技術成熟,視聯網的大小模型協同將從功能互補邁向深度融合,呈現三大趨勢:
①多模態大小模型融合
未來的視聯網大模型將不再局限於單一模態,而是融合文本、語音、傳感器、甚至物聯網設備狀態數據,形成全域感知大模型;小模型則針對具體場景開發專用版本,二者通過“模(mó)型(xíng)插(chā)件(jiàn)”機(jī)製(zhì)深度綁定。
②端雲協同向端邊雲腦架構演進
隨著邊緣計算節點的普及,視聯網將形成“終端采集-邊緣端實時處理-邊緣雲區域協同-中心雲全局決策”的多級架構。其中,邊緣雲承載區域級小模型集群,負責處理本區域內跨場景的協同任務;中心雲則聚焦跨區域大模型訓練,進一步提升響應速度,降低中心雲負載。
③工具賦能到生態共生的產業變革
大小模型協同將推動視聯網從技術工具升級為產業生態。通過在智慧農業、智慧城市、智慧工業等場景的落地應用,實現從技術賦能向生態共生的範式轉換,構建起“數據驅動創新、生態反哺技術”的良性循環體係。
4、結語
視聯網的大小模型協同,本質是智能與效率的平衡,大模型賦予係統思考深度,小模型保障行動速度,二者共同編織出一張能感知、會思考、可執行的智能視頻網絡。隨著技術迭代與生態完善,這張網絡將深度滲透至城市治理、民生服務、產業升級的每一個角落,成為數字時代科技向善的最佳注腳。
作者:王曉宇、李傑、李萌
單位:中國移動研究院
AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號