AI音頻技術在體育廣播領域擁有巨大潛力/以及潛在風險
來源:AI音頻時代 編輯:ZZZ 2025-03-28 08:45:58 加入收藏 咨詢

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯系方式: | |
咨詢內容: | |
驗證碼: |
|
人工智能(neng)(neng)(AI)在專業音頻領域的(de)(de)(de)(de)應(ying)用(yong),既可(ke)(ke)能(neng)(neng)成為自切片面包(bao)以來最偉(wei)大的(de)(de)(de)(de)發明,也(ye)(ye)可(ke)(ke)能(neng)(neng)像當年(nian)的(de)(de)(de)(de)“千年(nian)蟲”問題一(yi)樣引發恐慌(huang)。甚至,它可(ke)(ke)能(neng)(neng)產(chan)生類似“奧(ao)本海默效應(ying)”的(de)(de)(de)(de)雙刃劍效果:既可(ke)(ke)能(neng)(neng)拯救創造者,也(ye)(ye)可(ke)(ke)能(neng)(neng)毀滅他們,同時展(zhan)現(xian)出既危險又(you)誘人的(de)(de)(de)(de)一(yi)面。
AI 設計的(de)專業音(yin)頻(pin)應用(yong)產品已經產生了影響,例如 Respeecher 在(zai)(zai)(zai)電影和(he)視頻(pin)中(zhong)用(yong)于自動對白(bai)替換(ADR)。在(zai)(zai)(zai)音(yin)樂(le)、電視和(he)現場活動制(zhi)作(zuo)中(zhong),AI 被(bei)用(yong)于自動混音(yin),甚至(zhi)直(zhi)接創作(zuo)音(yin)頻(pin)。在(zai)(zai)(zai)這一過程中(zhong),它也威脅到了那(nei)些越來越多依賴它的(de)“碳(tan)基創作(zuo)者”的(de)就(jiu)業。
然而,AI 在音頻(pin)應用(yong)(yong)中(zhong)(zhong)的(de)(de)(de)(de)全部(bu)潛(qian)力,包括在廣播和體育(yu)直(zhi)播制作(zuo)中(zhong)(zhong)的(de)(de)(de)(de)應用(yong)(yong),仍然充滿(man)不(bu)確定性。最近(jin)一(yi)篇(pian)關于 FOX 體育(yu)在超級(ji)碗制作(zuo)中(zhong)(zhong)應用(yong)(yong) AI 的(de)(de)(de)(de)文章,標題中(zhong)(zhong)高(gao)調提到(dao)了“AI”,但內容(rong)卻(que)只是模(mo)糊(hu)地提及了機器學習(被認為是 AI 的(de)(de)(de)(de)一(yi)個子集)在未來不(bu)確定的(de)(de)(de)(de)應用(yong)(yong)。AI 已經成為了一(yi)種(zhong)“模(mo)因”,盡管是一(yi)個價值(zhi)數十億美元的(de)(de)(de)(de)模(mo)因。

SVG 采訪(fang)了幾位音頻(pin)專家(jia),評(ping)估(gu) AI 在體育廣播音頻(pin)中的潛(qian)在影響(xiang)。以(yi)下是他們(men)的觀點。
01
人類仍然不可或缺
Quintar 的 Tom Sahara 表示:“公司需要先進行投資,AI 才能持續產生實際效果。”

Tom Sahara 是(shi) Quintar(一家(jia)空間體驗(yan)開發公(gong)司)的(de)生產技術高級(ji)副總(zong)裁,曾任 Turner Sports 的(de)副總(zong)裁。他看到了(le) AI 在音(yin)(yin)頻(pin)領域的(de)雙面性。其優勢包括通過(guo)監控信號電(dian)平(ping)并以確定性和(he)可(ke)預測(ce)的(de)方式(shi)應(ying)用電(dian)平(ping)管理,減輕(qing) A1(音(yin)(yin)頻(pin)工程師)在比賽期(qi)間的(de)注意力負擔,或自動(dong)混音(yin)(yin)輸入源以用于二級(ji)用途(tu),如入耳式(shi)監聽、翻譯和(he)替代語(yu)言。它甚(shen)至可(ke)以通過(guo)整合(he)來自外部(bu)和(he)非音(yin)(yin)頻(pin)源的(de)數(shu)據(如、路由器活動(dong)、錄制設(she)備狀態和(he) GPS)來改進現有的(de)自動(dong)混音(yin)(yin)流(liu)程。

此外,自動化的(de)唇音同步和(he)延遲調整可(ke)以按通道存(cun)(cun)儲,并與時間、播放列表/剪(jian)輯 ID、物理位置(zhi)(GPS)、路由(you)器設(she)置(zhi)和(he)其他元數據一起保存(cun)(cun),從(cong)而無(wu)需重新(xin)編輯或構(gou)建獨立的(de)工(gong)作流程(cheng)即可(ke)糾正同步錯誤的(de)視頻源(yuan)。他還指出,支(zhi)持 IP 的(de)音頻設(she)備將加速(su) AI/ML(人工(gong)智能/機(ji)器學習)的(de)發(fa)展,因(yin)為 A/D 轉換(huan)成本(ben)高(gao)昂且不易集成到傳統工(gong)作流程(cheng)中(zhong)。
然而,Sahara 也指出:“目前有許多管理、培訓和支持需求尚未完全被理解,公司需要先進行投資,AI 才能持續產生實際效果。例如,根據個人需求訓練基于 AI 的混音和控制代理可能既昂貴又耗時。我們將不得不觀察類似 DeepSeek 的方法是否會影響這一點。此外,獲取大量訓練樣本也很困難,可能會迅速超出預算和時間資源。”
更令人擔憂的是,他補充道:“視頻中的‘幻覺’(錯誤)很容易被發現,但音頻更加微妙,驗證過程更加復雜。人類仍然需要參與其中。”
Calrec 的美國運營副總裁 Chris Fichera 也看到了 AI 的雙面性。他提到,AI 能夠實時處理音頻,管理解說員評論、觀眾噪音、效果和現場聲音,并自動調整均衡器(EQ),基于實時數據創建沉(chen)浸式(shi) 3D 混(hun)音。但(dan)他也指出,在快節(jie)奏、不可預測(ce)的體育節(jie)目中,過度依賴自動化(hua)功(gong)能(neng)可能(neng)存(cun)在風險。
不過,他指出,這些功能可能有助于緩解體育廣播領域經驗豐富的 A1 逐漸流失的問題,因為退休人數增加,從業者群體逐漸老齡化。“這對于經驗有限的 A1 來說非常有用,尤其是在進行廣播節目制作時。”
02
樂觀的看法
AudioShake 的 Suzanne Kirkland 表示:“AI 工具將增強人類專業知識,讓音頻專業人士能夠專注于故事敘述和粉絲互動,而不是繁瑣的清理工作。”

Suzanne Kirkland 是 AudioShake 的(de)企業客(ke)戶業務總監。她認為,在體育領域,AI 驅動的(de)工(gong)具如音源(yuan)分離、自(zi)動混(hun)音和語音克(ke)隆(long)能(neng)夠提高工(gong)作效率并(bing)解(jie)鎖新的(de)內(nei)容(rong)機(ji)會。
“音源分離是 AudioShake 的核心技術,它幫助聯賽和廣播公司應對體育直播音頻的復雜性,” 她說,“在體育直播中,觀眾噪音、解說和現場聲音相互競爭。我們的對話隔離模型通過從嘈雜環境中隔離清晰的語音,提高了轉錄的準確性,從而更精確地捕捉重疊的球員、教練和解說員的對話。這使得廣播公司能夠突出最重要的內容,無論是場上的動作還是場邊的動態。”

“音樂移除是另一個改變游戲規則的技術,幫助團隊和廣播公司避免法律和變現問題,” 她繼續說道,“通過去除受版權保護的音樂,同時保留語音和環境聲音,我們的技術使內容能夠更自由地在平臺上共享,而無需擔心下架或版權問題。”
然而,AI 并不是能夠單獨改變行業的“靈丹妙藥”。她強調,AI 不會取代人類的專業知識:“AI 工具將增強它,讓音頻專業人士能夠專注于故事敘述和粉絲互動,而不是繁瑣的清理工作。AI 將幫助處理繁瑣的工作,讓那些了解粉絲及其喜好的人有機會專注于創造和利用精彩內容。”
03
AI 已經在發揮作用
Salsa Sound 的 Rob Oldfield 表示:“更先進、更高效的算法,加上硬件加速,意味著實時應用現在成為可能。”

Salsa Sound 的(de)聯合(he)創始人(ren)兼首席執(zhi)行官 Rob Oldfield 指出(chu),自(zi) 2017 年(nian)以(yi)來(lai),他的(de)公司一直在(zai)使用深度學習技術開(kai)發現場(chang)比賽子混音(yin)器。他承(cheng)認,近年(nian)來(lai) AI 的(de)炒作可能有(you)些(xie)過頭,盡(jin)管它(ta)在(zai)語(yu)音(yin)識別和(he)降噪等領(ling)域已經(jing)取得了成功。
盡管如此,他補充道,一些重大進展使得算法的部署和開發變得更加容易,新的方法也擴展了在實時音頻中可以實現的范疇。“歷史上,AI 在音頻中的應用主要局限于非實時/離線應用,”他解釋道,“但更先進、更高效的算法,加上硬件加速,意味著實時應用現在成為可能。”

他提到,AI 處理可能帶來的延遲問題,“一個很好的例子是自動字幕生成、翻譯和語音替換,這些技術正在迅速為無障礙音頻解決方案帶來新的可能性,為觀眾提供多語言解說或音頻描述頻道,而這些在以前由于成本高昂和人力密集,難以大規模生產。”
Salsa Sound 目前的(de)計劃包括(kuo)進一步開發(fa)自主混音/制作工具。這家總部位于英國的(de)公司還(huan)正在推出一套(tao)自動化質量(liang)控制工具,利用機器(qi)學習監聽特定音頻故障的(de)特征或(huo)問題。這包括(kuo)風噪檢(jian)測、相位異常(chang)、爆(bao)音/雜音和其他偽影,以及音質、語音清晰(xi)度和關鍵(jian)詞/語言檢(jian)測等功能。
“實時音頻 AI 已經有很多可能性和實際應用,” 他說,“但未來還會有更多。這是一個令人興奮的時代。”
04
小心你的愿望
NBC體育和奧運會的Karl Malone:“我認為目前廣播中的AI是‘自動化智能’,只要有人領導它,而不是將其用作‘設置并忘記’。”

與大多數工程同行一樣(yang),NBC體育和奧(ao)運會的高級音頻工程總監(jian)Karl Malone從(cong)實用而(er)非理論的角度看待(dai)AI,專注于現(xian)在和不久的將來(lai)該技術(shu)及其子集(如(ru)機器學習)能為廣播體育帶來(lai)什么,主(zhu)要是以(yi)自動化(hua)流程的形式。然而(er),像任何曾經混音過節目的人一樣(yang),他(ta)對(dui)潛在的缺點(dian)持謹慎態度。
“我認為目前廣播中的AI是‘自動化智能’而不是‘智能’,” 他說,并引用了Lawo的KICK音頻混音/球跟蹤技術,該技術目前由德甲和FIFA用于足球比賽。“我支持將我們廣播音頻中的一些任務自動化,只要有人負責制作音頻設計并領導它,而不是將其用作‘設置并忘記’,因為‘忘記’部分是我們可能遇到問題的地方。”

但自動化流程可以帶來顯著的好處。例如,他建議,它可以用于在嘈雜的體育場館或官員的耳機中清理解說員麥(mai)克風(feng)通道。
“而且,當我們為觀眾提供更個性化的音頻選項時,比如賽車運動,” 他繼續說,“我可以看到從A1控制臺自動或智能混音音頻干音到與內容匹配的演示中。例如,選擇一個車內攝像頭,聽到該車的環境聲音,加上駕駛員和機組人員的通信,加上或減去節目評論。所有這些源都可以使用保持每個演示在混音質量、LKFS等方面一致的參數進行智能混音。”
目前,Malone將AI視為A1和(he)聲(sheng)音主(zhu)管工具(ju)帶中的(de)另一個工具(ju),盡管它比(bi)自動(dong)混音和(he)動(dong)態噪聲(sheng)抑(yi)制更(geng)有能力。然而,未(wei)來可能更(geng)難預(yu)測,特別(bie)是當消費者對他們的(de)廣播音頻有更(geng)多期望時(shi),以(yi)及媒體(ti)公司尋找更(geng)好地吸引他們的(de)方式(shi)時(shi)。
“最終,產品的人工智能性質將演變為能夠一致地混音整個比賽場地,” 他預測。“但是,隨著更多內容需要通過直接面向消費者的模式播出,我們音頻社區將不得不開始定義我們感興趣的任何智能混音過程的參數,然后以視頻為中心的行業公司開始發布所有新的閃亮AI音頻混音工具。”
換句話說(shuo),他(ta)警(jing)告(gao)說(shuo),圍(wei)繞(rao)AI和廣播聲音(yin)的炒作最(zui)終可能會損害它聲稱要增強(qiang)的音(yin)頻質量(liang)。
評論comment