(網(wǎng)經(jīng)社訊)9月26日,一則警情通報,將深陷輿情漩渦的三只羊又拉到人們眼前!合肥市公安局高新分局發(fā)布警情通報稱,網(wǎng)上傳播涉盧某某的音視頻屬于偽造,是AI工具訓練生成,嫌疑人王某某杜撰酒后言論腳本,使用AI工具和視頻軟件生成假冒盧某某的音視頻,并大量傳播。警方表示,為了確認音視頻的真實性,警方將相關證據(jù)送交部、省專業(yè)機構進行檢驗鑒定。經(jīng)過專業(yè)機構的嚴格鑒定,最終確認報案所涉的網(wǎng)傳音視頻系偽造。
如果偵查屬實,嫌疑人可能涉嫌兩個罪名,其一是涉嫌誹謗罪,根據(jù)《中華人民共和國刑法》第二百四十六條的規(guī)定,如果AI生成的謠言內容涉及對他人進行侮辱或誹謗,且情節(jié)嚴重,可能構成侮辱罪或誹謗罪,犯侮辱罪、誹謗罪的,處三年以下有期徒刑;其二,涉嫌尋釁滋事罪。根據(jù)《中華人民共和國刑法》第二百九十三條的規(guī)定,利用AI技術編造并傳播虛假信息,造成公共場所秩序嚴重混亂的,或對受害人生活造成嚴重的影響,則可能構成尋釁滋事罪。犯尋釁滋事罪的,處五年以下有期徒刑、拘役或者管制。目前警方尚未披露具體罪名,但根據(jù)現(xiàn)有事實情況,構成誹謗罪的概率較大。
“深度偽造”犯罪頻發(fā)
這類通過AI偽造音視頻的犯罪案件已經(jīng)不是第一案,近年來已經(jīng)有案件爆發(fā)的趨勢。
2023年5月,包頭警方就破獲一起利用AI深度偽造實施的詐騙案件,短短10分鐘受害人被騙取了430萬元。受害人郭某是福州市某公司法人代表,其好友突然通過微信視頻聯(lián)系到他,稱在外地投標,需要430萬元保證金,且需要公對公賬戶過賬,所以想要借用郭先生公司的賬戶走一下賬。從視頻里看,那確實是自己的朋友,聲音也一模一樣。出于對老朋友的信任,郭某就轉賬了430萬元,幸運的是,接到報警后,福州、包頭兩地警銀迅速啟動止付機制,成功止付攔截336.84萬元,但仍有93.16萬元被轉移。
2024年5月,韓國也發(fā)生一起AI深度偽造淫穢影像的惡劣案件,即利用AI換臉制造色情圖頻,并通過社交媒體平臺傳播的性犯罪行為被大量曝光。韓國當?shù)孛襟w報道,首爾大學畢業(yè)生樸某和姜某,從2021年7月至2024年4月的3年多里,盜用女性同學、熟人的照片,用深度偽造技術換臉合成色情制品,在Telegram上建立了近200個網(wǎng)絡聊天室進行傳播,警方稱,樸某共參與制作、傳播約1700份非法照片和視頻,受害女性多達61人。
隨著輿論在各大社交媒體上發(fā)酵,韓國政府也出面作出表態(tài)。韓國總統(tǒng)尹錫悅表示,惡意利用深度偽造技術是犯罪行為,希望有關部門通過掌握實際情況和調查,徹底根除此類數(shù)字技術犯罪。韓國警方已成立特別工作組,8月28日起,會專門對深度偽造性犯罪等虛假視頻案件展開為期7個月的專項行動。警方統(tǒng)計顯示,韓國今年前7個月共有297宗深偽色情罪案,較去年全年的180宗更高。
實際上,深度偽造這一技術犯罪,這兩年在全球都有出現(xiàn)。
在國內,今年6月,“男子用AI偽造學生同事近7000張裸照”沖上微博熱搜。據(jù)央視新聞消息,犯罪嫌疑人白某某是一家互聯(lián)網(wǎng)公司的技術員,他用AI“一鍵去衣”技術,深度偽造淫穢圖片近7000張,再每張1.5元賣出,賺了將近一萬元。圖片涉及女性人數(shù)多,包括學生、教師、同事。目前白某某已被提起公訴。一名被警方抓獲的犯罪嫌疑人白某某原本是一家互聯(lián)網(wǎng)公司的技術員,他因為使用AI去衣技術,制作、販賣淫穢物品而涉嫌犯罪。
針對這一案件,檢察機關認為,被告人白某某以牟利為目的,制作、販賣淫穢物品,情節(jié)嚴重,其行為觸犯了《中華人民共和國刑法》的相關規(guī)定,應當以制作、販賣淫穢物品牟利罪追究其刑事責任。
今年1月,美國著名歌手泰勒·斯威夫特(Taylor Swift)也成為了AI深度偽造的受害者,大量由AI生成的泰勒不雅照在各大社交平臺瘋轉,瀏覽量過千萬,引發(fā)公眾關注。
此外,在8月份,埃隆·馬斯克(Elon Musk)也因AI偽造技術卷入了一場詐騙事件。82歲的退休老人史蒂夫·比徹姆(Steve Beauchamp)在網(wǎng)上看到了一段聲稱由馬斯克親自承諾收益的投資視頻,隨后他聯(lián)系了視頻背后的推銷公司,并投資了超過69萬美元。隨后,這些錢就落入了詐騙犯之手。這些詐騙者篡改了一段馬斯克的真實采訪,利用AI技術替換了他的聲音,并微調了他的口型,以匹配他們?yōu)檫@個數(shù)字人編寫的新劇本。對于一般觀眾來說,這種操作幾乎察覺不出。
“深度偽造”技術的解構
深度偽造是一種利用 AI 等新興技術操縱音視頻、圖像或文本內容的技術,其目的是產(chǎn)生誤導效果。深度偽造最初主要用于娛樂目的,但后來逐漸演變?yōu)榫W(wǎng)絡犯罪的工具,如近年來頻發(fā)的利用偽造聲音和人像進行的電信詐騙案件。2024 年 1 月,世界經(jīng)濟論壇發(fā)布的《2024 年全球風險報告》將“AI 衍生的錯誤信息和虛假信息及其對社會兩極分化的影響”列為未來兩年的十大風險之首。
“深度偽造”作為“深度學習”( deep learning) 與“偽造”( fake) 的融合,通常是指基于人工智能合成技術,將已有的視頻、音頻、圖片疊加至目標影片或圖像上,從而創(chuàng)制出新的影音圖像的技術。
“深度偽造”技術合成的視頻、音頻之所以能起到以假亂真的效果,主要源于“學習—監(jiān)督”算法的設定與應用:一方面通過“深度學習”技術的應用,使程序具有對樣本進行深度分析、轉化、重構的能力,能在短時間內提煉出樣本視頻、音頻、圖像的共性,合成新的密鑰,在此基礎上創(chuàng)制學習成果并予以輸出;另一方面通過“生成式對抗網(wǎng)絡”算法模型的設定,使“深度偽造”技術能夠自動、反復地對已生成的視頻、音頻、圖像進行修正、重構,并在自動學習的過程中不斷提升成果質量,達到“溫故而知新”的效果。
所謂的生成對抗網(wǎng)絡是非監(jiān)督式學習的一種方法,由兩個類神經(jīng)網(wǎng)絡模組互為競爭,一是差異鑒別器網(wǎng)絡(Discriminator Network),另一是生成器網(wǎng)絡(Generator Network)。通過讓兩個神經(jīng)網(wǎng)絡相互博弈的方式進行學習。生成式對抗網(wǎng)絡是用來愚弄刺激差異鑒別器網(wǎng)絡的,只要提供訓練資料集,生成器網(wǎng)絡就會產(chǎn)生和訓練數(shù)據(jù)資料集相同統(tǒng)計數(shù)據(jù)之新的資料,喂進資料集一張影像,就會產(chǎn)生乍一看相似的影像。而差異鑒別器主要工作則是去區(qū)別生成之影像與實際影像間的差異,通過不斷監(jiān)測并給出真或假的反饋,讓生成器借此反饋不斷調整模組參數(shù),如此來來回回使影像越來越像,最終產(chǎn)生真假難辨的版本。
隨著技術的革新,“深度偽造”技術已經(jīng)不限于視頻、音頻、圖像的合成與偽造,而成為涵蓋現(xiàn)實偽造與虛擬現(xiàn)實創(chuàng)作的應用技術?!吧疃葌卧臁奔夹g的應用所涵蓋的領域包括:
1.人臉更換:通過對視頻中的人臉進行更換,使被替換者能夠實施自己從未有過的行為;
2.面部重塑:通過對目標對象的口型、語速和面部表情進行重塑,使目標人物表達出非真實性的言論;
3.聲音偽造:通過對目標人物的聲音進行學習,創(chuàng)制出目標人物的聲音模型并進行非真實性的語義表達;
4.全合成:通過軟件創(chuàng)建現(xiàn)實中并不存在的人物形象。日本人工智能公司數(shù)據(jù)網(wǎng)格( Data Grid) 開發(fā)的人工智能軟件已經(jīng)能自動生產(chǎn)虛擬人物的全身模型,并將之應用于未來服裝行業(yè)。
由于音頻圖像合成技術發(fā)展得較為成熟,“深度偽造”技術在實踐中主要被用于對視頻、音頻的合成。上述技術也可以疊加應用,如通過人臉和語音的雙重偽造,創(chuàng)制出某一政治家從未發(fā)表過的演講視頻。厘清“深度偽造”技術通過何種運作機理完成上述合成過程,無疑是理解該技術的基礎,也是確立法律在何種程度上介入這一新興技術領域的前提。
深度偽造法律規(guī)制:AIGC內容標識及溯源檢測
隨著AI技術發(fā)展,生成合成技術不僅在逼真程度上日臻成熟,技術工具的可及性及易用性極大提高。當人人均可低成本地制作、傳播深度偽造的內容時,現(xiàn)實與虛擬的界限不再顯而易見,互聯(lián)網(wǎng)信息傳播的基本邏輯遭到挑戰(zhàn)。
為此,各國已經(jīng)著手管制并陸續(xù)出臺了各項法規(guī)。美國參議院2018年提出了《惡意深度偽造禁止法案》。2019年6月,美國聯(lián)邦《深度偽造責任法案》(提案)要求合成視頻創(chuàng)制者以在視頻中添加水印及個人聲明的方式對“深度偽造”技術進行應用。對于違反標識義務,意圖羞辱他人或者干擾政治運作、引發(fā)武力或外交沖突而發(fā)布合成視頻的行為,將面臨最高5年監(jiān)禁的刑事處罰。歐盟則將其以“深度合成”納入《通用數(shù)據(jù)保護條例(GDPR)》,采取了數(shù)據(jù)治理和算法規(guī)制的模式,于2022年出臺了《歐盟反虛假信息行為準則》,在其新推出的《人工智能法案》中對相關問題也進行了規(guī)定:“對于與自然人直接交互的人工智能系統(tǒng),人工智能系統(tǒng)提供者應明確告知用戶他們正在與人工智能系統(tǒng)進行互動,并確保人工智能系統(tǒng)的輸出以機器可讀格式標記,且可被檢測。”而德國、新加坡、英國、韓國等則試圖將深度偽造納入刑法規(guī)定范圍。
我國 2023 年施行的《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》《生成式人工智能服務管理暫行辦法》作為專門的統(tǒng)一性立法,對利用AI技術實施違法犯罪行為也進行了規(guī)制,旨在要求深度合成服務提供者應當落實信息安全主體責任,建立健全用戶注冊、算法機制機理審核、科技倫理審查、信息發(fā)布審核、數(shù)據(jù)安全、個人信息保護、反電信網(wǎng)絡詐騙、應急處置等管理制度,具有安全可控的技術保障措施。
我國監(jiān)管部門也已經(jīng)意識到互聯(lián)網(wǎng)信息傳播的信任基礎需要被重塑,且迫在眉睫,而生成合成內容的標識將是重建信任邊界的重要工具。
根據(jù)《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》第十七條,深度合成服務提供者提供上述規(guī)定之外的深度合成服務的,應當提供顯著標識功能,并提示深度合成服務使用者可以進行顯著標識。我們理解這些場景可能包括非人聲生成合成、非人臉圖像視頻生成合成等。
2024年9月14日,網(wǎng)信辦發(fā)布《人工智能生成合成內容標識辦法(征求意見稿)》及其配套強制性國家標準《網(wǎng)絡安全技術 人工智能生成合成內容標識方法(征求意見稿)》,以進一步明確添加標識的具體要求。
根據(jù)上述意見稿的規(guī)定,在中國境內應用算法推薦技術、深度合成技術或生成式人工智能技術提供互聯(lián)網(wǎng)信息服務的服務提供者是標識辦法及標準征求意見稿的主要義務主體。此外,提供網(wǎng)絡信息內容傳播平臺服務的服務提供者、互聯(lián)網(wǎng)應用程序分發(fā)平臺、用戶均具有義務履行或者配合履行標識義務。
根據(jù)服務性質的不同,提供者有義務對相關生成合成內容添加顯式或/和隱式標識,《辦法征求意見稿》相關規(guī)定介紹如下:
服務提供者提供的生成合成服務屬于如下情形的(即《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》第十七條第一款),應當按照下列要求對生成合成內容添加顯式標識。顯式標識是指在生成合成內容或者交互場景界面中添加的,以文字、聲音、圖形等方式呈現(xiàn)并可被用戶明顯感知到的標識。
文本內容:提供智能對話、智能寫作等模擬自然人進行文本的生成或者編輯服務的,應在文本的起始、末尾、中間適當位置添加文字提示或通用符號提示等標識,或在交互場景界面或文字周邊添加顯著的提示標識;
人聲、仿聲內容:提供合成人聲、仿聲等語音生成或者顯著改變個人身份特征的編輯服務的,應在音頻的起始、末尾或中間適當位置添加語音提示或音頻節(jié)奏提示等標識,或在交互場景界面中添加顯著的提示標識;
人臉內容:提供人臉生成、人臉替換、人臉操控、姿態(tài)操控等人物圖像、視頻生成或者顯著改變個人身份特征的編輯服務的,應在圖片的適當位置添加顯著的提示標識;涉及視頻的,在視頻起始畫面和視頻播放周邊的適當位置添加顯著的提示標識,可在視頻末尾和中間適當位置添加顯著的提示標識;
虛擬場景:提供沉浸式擬真場景等生成或者編輯服務的,應當在起始畫面的適當位置添加顯著的提示標識,可在虛擬場景持續(xù)服務過程中的適當位置添加顯著的提示標識;
其他場景:其他可能導致公眾混淆或者誤認的生成合成服務場景,應當根據(jù)自身應用特點添加具有顯著提示效果的顯式標識。
中國、歐盟、美國等各國立法機構均已具有相當程度的共識,需對人工智能生成合成內容的溯源及真實性核驗加強監(jiān)管。可以預見,生成合成內容的標識將成為未來人工智能領域執(zhí)法的重點。
網(wǎng)絡平臺檢測實踐:以技術對抗技術
麻省理工學院媒體實驗室列出了一些值得注意的深度偽造的明顯特征,包括:
1. 眨眼和嘴唇動作:是否遵循自然節(jié)奏?
2. 眼睛和眼鏡中的反射:是否一致?是否在視覺上合理?
3. 皮膚年齡與眼睛和頭發(fā)的年齡是否匹配?
在深度偽造的圖像中,眼睛的反射通常不一致,如右上方的綠色和紅色標記所示。
圖片來源:Adejumoke Owolabi/赫爾大學
英國赫爾大學的一項新研究指出,眼睛可以說明一切。如果兩只眼睛的反射相匹配,那可能是真實的圖像,如果反射不一致,則很可能是偽造的。
“假陽性和假陰性的情況也可能出現(xiàn);這種方法不是萬無一失的,”研究人員之一Kevin Pimbblet教授提醒道,“但是,如果把檢測深度偽造看作一場軍備競賽,觀察眼睛反射的方法為我們提供了一個基礎的進攻計劃?!盵 摘自公眾號“世界經(jīng)濟論壇”文章《如何識別深度偽造?專家這樣說》]
Meta表示,其已經(jīng)開發(fā)出一種AI工具,通過對AI生成的單一圖像進行逆向工程,從單個AI生成的圖像返回到用于生成它的生成模型,從而檢測深度偽造。Meta和McAfee等公司已經(jīng)在設計的檢測軟件的檢測因素包括:生物信號:根據(jù)血液流經(jīng)面部而導致的面部膚色的自然變化;音位-視位不匹配:嘴形動態(tài)的發(fā)音有時與口語音素不同或不一致;面部動作:面部運動和頭部運動的相關性來提取一個人的特征運動等。[ 參見:https://analyticsindiamag.com/top-ai-based-tools-techniques-for-deepfake-detection/ ]
谷歌發(fā)布了一個大型的視覺深度偽造數(shù)據(jù)集,并將其納入Face Forensics基準。微軟推出了視頻認證工具——Microsoft Video Authenticator,可以分析靜態(tài)照片或視頻,以提供媒體被人為操縱的百分比機會或置信度分數(shù)。它通過檢測人眼可能無法檢測到的 deepfake 和微妙的褪色或灰度元素的混合邊界來工作。
除此之外,我們也看到各大社交平臺、視頻網(wǎng)絡也都通過修改其平臺規(guī)則及用戶政策,以貼合法律要求,在保護平臺自身利益的情況下有條件地規(guī)制Deepfake內容。比如X平臺(推特)通過一套復雜的規(guī)則識別有偽造嫌疑的推文,并告知相應的發(fā)布者刪除其偽造內容。而TikTok 則在2023年更新的平臺社區(qū)準則中規(guī)定,不僅所有涉及Deepfake視頻都必須明確披露其為合成(synthetic)、虛假(fake or not real)或受更改(altered),同時還禁止了用戶發(fā)布除公眾人物之外的涉及個人形象的Deepfake視頻,但即使是針對公眾人物的Deepfake視頻,也對產(chǎn)品代言、社會影響等方面做出了大量限制。
結語
技術本身是中立的,但可以成為人類向善或作惡的工具;人工智能的發(fā)展前景令人期待,但同時也面臨著挑戰(zhàn),我們認為未來對于Deepfake相關技術的監(jiān)管趨勢會著重于技術供應商以及平臺管理方,從源頭上控制AI技術的運用。而對于用戶在Deepfake的使用方面,在現(xiàn)有法律框架下已經(jīng)能夠實現(xiàn)基本覆蓋。但一旦因技術發(fā)展導致的新型社會危害或犯罪形式的出現(xiàn),則勢必需要針對該技術出臺特別規(guī)范以填補“大框架”基本法的立法留白。