從“一眼假”到“真假難辨”再到“深度偽造”，生成一條音頻只需20秒

濫用公眾人物聲音惡搞，AI技術(shù)應(yīng)用“玩過界”被質(zhì)疑

本報(bào)記者陳曦

《工人日?qǐng)?bào)》（2024年10月28日 04版）

近日，一些短視頻平臺(tái)涌現(xiàn)了大量某知名企業(yè)家吐槽的視頻。在視頻中，該企業(yè)家對(duì)堵車、調(diào)休、游戲等熱門話題進(jìn)行了調(diào)侃和銳評(píng)，甚至還有不雅詞匯穿插其間，引發(fā)網(wǎng)友熱議。

事實(shí)上，那些吐槽視頻并非該企業(yè)家本人在發(fā)聲，而是由網(wǎng)友利用AI軟件采集該企業(yè)家原音生成的配音，但逼真的效果讓不少人信以為真。

AI的發(fā)展為生活帶來了許多便利，但一些亂象也引發(fā)質(zhì)疑。以AI語音合成技術(shù)為例，只需要打開軟件、動(dòng)動(dòng)手指，一條以假亂真的配音視頻就能新鮮出爐。然而，有的視頻越過了開玩笑的邊界，“偷走”他人聲音進(jìn)行惡搞、造謠，帶來了惡劣的社會(huì)影響。

20秒就能生成一條AI音頻

記者在社交軟件上檢索AI配音發(fā)現(xiàn)，不少用戶發(fā)布了相關(guān)視頻的生成教程。其中，大部分視頻的配音都源于某擬真語音大模型應(yīng)用。

在該應(yīng)用網(wǎng)站上，創(chuàng)作者上傳任意人物的一段音頻作為訓(xùn)練素材，隨后AI通過學(xué)習(xí)可克隆出一個(gè)聲音角色。網(wǎng)站中的其他用戶只需輸入文本，便可以使用該聲音生成內(nèi)容。

按照該網(wǎng)站的使用指引，記者添加了上述知名企業(yè)家的聲音角色，輸入一段100字的文本，然后點(diǎn)擊“開始生成”，約20秒，一條與該企業(yè)家聲音相似度極高的AI音頻就生成了。記者發(fā)現(xiàn)，截至目前，該聲音角色已被使用79.9萬次，生成字符數(shù)達(dá)4455.5萬個(gè)。

被“偷走”聲音的公眾人物還有不少。今年9月底，一段據(jù)稱是某直播平臺(tái)老板盧某某的酒后錄音在網(wǎng)絡(luò)上流傳，整體呈現(xiàn)出盧某某對(duì)于消費(fèi)者的傲慢態(tài)度，以及對(duì)相關(guān)人士的不尊重表達(dá)，為該平臺(tái)招致了不小的爭議。后警方調(diào)查發(fā)現(xiàn)，音頻內(nèi)容不實(shí)，系大模型偽造而成。

一位業(yè)內(nèi)人士告訴記者，通過模仿音頻樣本的語調(diào)、語速、情感、口音、發(fā)聲方式等特征，AI技術(shù)已經(jīng)能夠高度還原音頻樣本的聲音，達(dá)到人耳和其他鑒定方式難以區(qū)分的程度。

“從早期的‘一眼假’到如今的‘真假難辨’，AI的發(fā)展進(jìn)入了‘深度偽造’時(shí)代?！敝袊鐣?huì)科學(xué)院大學(xué)法學(xué)院副教授、互聯(lián)網(wǎng)法治研究中心主任劉曉春向記者表示，在未經(jīng)過授權(quán)、未進(jìn)行標(biāo)注的情況下，用他人聲音制作AI語音產(chǎn)品，尤其是“借用”公眾人物的聲音，很容易引起誤解，這不僅會(huì)侵害個(gè)人信息安全，還可能擾亂網(wǎng)絡(luò)空間生態(tài)秩序。

濫用他人聲音侵犯人格權(quán)

當(dāng)前，不少網(wǎng)友在合成他人的AI音頻時(shí)，僅抱著娛樂心態(tài)，并沒有意識(shí)到背后隱藏的法律風(fēng)險(xiǎn)。記者注意到，在一條“AI配音教程”視頻的評(píng)論區(qū)，有學(xué)員提問“這樣不侵權(quán)嗎”？

博主回復(fù)稱：“大家都在做，如果提示違規(guī)，刪了就行了?！?/p>

對(duì)此，北京盈善律師事務(wù)所律師張清鑫分析稱，與“肖像”類似，自然人的聲音具有唯一性、獨(dú)特性，是自然人人格的重要組成部分，聲音權(quán)益是人格權(quán)的一種。制作并上傳他人AI音頻的行為，無論是出于商業(yè)目的還是娛樂目的，都已構(gòu)成對(duì)其人格權(quán)的侵犯。如果配音內(nèi)容違法或違反公序良俗，可能侵犯他人的名譽(yù)權(quán)。

據(jù)了解，今年4月，北京互聯(lián)網(wǎng)法院一審開庭宣判了全國首例AI生成聲音人格權(quán)侵權(quán)案。該案中，配音師因認(rèn)為自身作品被短視頻平臺(tái)利用AI生成語音產(chǎn)品，嚴(yán)重侵犯了自己的聲音權(quán)益，將短視頻平臺(tái)及制作方等5家公司訴至法院，最終原告獲賠經(jīng)濟(jì)損失25萬元。

在審理過程中，被告公司辯稱，人工智能合成后的聲音產(chǎn)品，與自然人聲音在人身權(quán)屬性上有所區(qū)別，目前技術(shù)都會(huì)對(duì)人工智能合成聲音進(jìn)行水印標(biāo)記，切斷了人工智能合成聲音與自然人聲音之間的聯(lián)系，不會(huì)產(chǎn)生對(duì)應(yīng)自然人的人格屬性。而法院認(rèn)為，AI聲音與原告聲音具有高度一致性，能夠引起一般人產(chǎn)生與原告有關(guān)的思想或感情活動(dòng)，能夠?qū)⒃撀曇袈?lián)系到原告本人。在具備可識(shí)別性的前提下，自然人聲音權(quán)益的保護(hù)范圍可及于AI生成聲音。

“該判決對(duì)于厘清和把握AI生成聲音的邊界具有指導(dǎo)意義。”劉曉春說。

治理手段要跟上科技步伐

清華大學(xué)新聞與傳播學(xué)院新媒體研究中心今年4月發(fā)布的一份研究報(bào)告顯示，近一年來，經(jīng)濟(jì)與企業(yè)類AI謠言量增長99.91%。受訪專家表示，法律法規(guī)和治理手段要跟上科技發(fā)展的步伐，對(duì)AI技術(shù)的應(yīng)用進(jìn)行明確的約束，引導(dǎo)科技向善。

張清鑫認(rèn)為，AI語音應(yīng)用工具提供方不能“置身事外”，而是要把好第一道關(guān)，強(qiáng)化對(duì)源頭素材的把控和對(duì)生成內(nèi)容的監(jiān)管，完善運(yùn)營規(guī)則，并在出現(xiàn)問題時(shí)積極配合有關(guān)部門，追溯違法音頻的生成源頭。

今年9月，國家網(wǎng)信辦發(fā)布的《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法（征求意見稿）》提出，提供網(wǎng)絡(luò)信息內(nèi)容傳播平臺(tái)服務(wù)的服務(wù)提供者應(yīng)當(dāng)采取措施，規(guī)范生成合成內(nèi)容傳播活動(dòng)。包括提供必要的標(biāo)識(shí)功能，并提醒用戶主動(dòng)聲明發(fā)布內(nèi)容中是否包含生成合成內(nèi)容等。

“作為內(nèi)容傳播的服務(wù)提供者，短視頻等傳播平臺(tái)應(yīng)盡到相關(guān)義務(wù)?！眲源航ㄗh，除了提示用戶進(jìn)行標(biāo)識(shí)以外，平臺(tái)也應(yīng)對(duì)AI生成內(nèi)容建立甄別和追蹤的機(jī)制。如果發(fā)現(xiàn)涉嫌偽造的內(nèi)容或者接到相關(guān)投訴，應(yīng)當(dāng)要求內(nèi)容發(fā)布者及時(shí)對(duì)偽造內(nèi)容進(jìn)行標(biāo)識(shí)，在不標(biāo)識(shí)的情況之下，可以根據(jù)平臺(tái)規(guī)則刪除內(nèi)容，造成嚴(yán)重后果的可以進(jìn)行禁言、封號(hào)等處理。

從“一眼假”到“真假難辨”再到“深度偽造”，生成一條音頻只需20秒

濫用公眾人物聲音惡搞，AI技術(shù)應(yīng)用“玩過界”被質(zhì)疑

從“一眼假”到“真假難辨”再到“深度偽造”，生成一條音頻只需20秒

濫用公眾人物聲音惡搞，AI技術(shù)應(yīng)用“玩過界”被質(zhì)疑