近年來,基于大型語言模型(簡稱“大模型”)衍生的生成式人工智能技術與服務“軍備競賽”,在全球范圍內開展地如火如荼。過去數月中,我國諸多大型科技企業和中早期科創企業也紛紛加入該賽道,形成“百模大戰”的賽跑格局,對技術路徑選擇和真實市場需求進行了大量有益探索。
在此過程中,一方面,監管機構與諸多企業頻繁互動,對國內生成式人工智能行業現狀開展了調研,在一定程度上引導業界達成了“中國一定要有自主可控的大模型”的共識。另一方面,自主可控的優質大模型需要更大量的用戶交互、更豐富的場景試用,因此,對監管能否創設有利于模型衍生、訓練的制度賽道,能否采取更靈活機動的行業管理機制提出了更高的要求。
基于前述背景,主管機關對2023年4月發布的《生成式人工智能服務管理辦法(征求意見稿)》(簡稱“征求意見稿”)進行了修訂,由國家互聯網信息辦公室(簡稱“網信辦”)攜手其余六部門于2023年7月10日發布了《生成式人工智能服務管理暫行辦法》(簡稱“《暫行辦法》”),《暫行辦法》將于2023年8月15日施行。相較于征求意見稿,《暫行辦法》更顯著地突出了擁抱人工智能發展、融合現有制度框架、務實設計監管思路的趨勢。生成式人工智能企業也需相應理解合規思路,有針對性地完善合規體系建設。
《暫行辦法》充分體現了擁抱生成式人工智能技術的總體基調。例如,《暫行辦法》由七部門聯合發文。其中,除征求意見稿的主筆起草部門網信辦外,還加入了國家發展和改革委員會(簡稱“發改委”)、中華人民共和國教育部、中華人民共和國科學技術部(簡稱“科技部”)、工業和信息化部(簡稱“工信部”)、中華人民共和國公安部(“公安部”)、國家廣播電視總局(簡稱“廣電總局”)等部門。網信辦、工信部、公安部作為類似技術賽道傳統意義上的主要監管單位,攜手發布生成式人工智能監管新規,是對生成式人工智能已有監管框架的延續(例如他們也是《互聯網信息服務深度合成管理規定》的發文單位)。
此外,科技部作為年初國務院機構改革重組的重點單位,承擔推動健全新型舉國體制、優化科技創新全鏈條管理、促進科技成果轉化、促進科技和經濟社會發展相結合等職能。特別地,科技部主導起草的《科技倫理審查辦法(試行)(征求意見稿)》與生成式人工智能高度相關。舉例而言,該文件明確規定從事人工智能等科技活動的單位,研究內容涉及科技倫理敏感領域的,應設立科技倫理(審查)委員會。基于大模型的生成式人工智能產品原理復雜,實現算法透明度的難度相對較大,訓練數據及參數調優對生成結果影響巨大,科技倫理審查制度和合規要求將在大模型企業的合規實踐中占據重要位置。
發改委作為聯合發文單位,體現了生成式人工智能產業與數據要素市場的高度相關性以及可預期的高度融合趨勢。發改委是《關于構建數據基礎制度更好發揮數據要素作用的意見》的主導單位,其下轄的國家數據局負責協調推進數據基礎制度建設,統籌推進數字中國、數字經濟、數字社會規劃和建設。生成式人工智能需要大量數據驅動訓練與優化,應用場景也需與數據要素利用高度融合與協同,數據要素市場的建立、活躍以及良性監管,將從數據源頭促進生成式人工智能技術迭代和產品更新。
教育部、廣電總局,作為相關行業或領域監管部門,其職權行為往往體現為對融合生成式人工智能技術或服務的部分傳統行業的監管。例如,廣電總局制定廣播電視、網絡視聽節目服務管理政策,進行行業管理,該行業不免集中了多類生成式人工智能服務的應用場景。再如,教育領域也是當前生成式人工智能服務最主要的應用領域之一,相當一部分生成式人工智能服務的研發與高校緊密綁定,是高??萍汲晒D化的重要場景。
因此,上述多部門的聯合發文,特別是發改委及幾家行業主管部門的參與,體現出監管在對生成式人工智能應用多維度理解的前提下,以“包容審慎”態度塑造監管格局、制度賽道,并力求實現行業良性“發展”的整體基調。生成式人工智能領域技術和服務監管具有特殊性,其應用落地場景變迭極快,應用場景跨行業跨專業特點較為明顯,行業參與者擬適用的技術路徑和服務模式也在探索中迅速更新。因此,一方面,監管需要以相對“審慎”的基調設定合規要求和監管思路;另一方面,政策層面已經奠定“發展”的主基調,因此需要強調“包容”,讓技術的應用隨著業務和場景在審慎的監管環境下先行落地和推進?!鞍輰徤鳌边@一關鍵詞,也總體貫徹于《暫行辦法》相較于征求意見稿的若干重要修訂中,詳見后文分析。
《暫行辦法》明確提出生成式人工智能數據源以及相關技術與服務應用的“分類分級監管”思路。具體地,《暫行辦法》對生成式人工智能“基礎設施”之一的訓練數據源有簡略規定,提到應推動公共數據分類分級有序開放,擴展高質量的公共訓練數據資源。這既是《中華人民共和國數據安全法》對數據處理活動分類分級原則性要求在公共數據應用領域的體現,也反映為數據驅動的生成式人工智能服務分類分級監管的入口維度。此外,《暫行辦法》也明確規定,國家有關主管部門將針對生成式人工智能技術特點及其在有關行業和領域的服務應用,完善與創新發展相適應的科學監管方式,制定相應的分類分級監管規則或者指引。
從產業發展的視角看,如何對生成式人工智能進行更精準的“分類分級監管”,是值得期待的重要話題。歐洲《人工智能法案》(Artificial Intelligence Act)的監管思路深度滲透、貫穿“風險分級”的概念,是我國建設、完善該領域下分類分級監管制度的有益參考?!度斯ぶ悄芊ò浮凡扇 盎陲L險水平”的風險分級導向監管模式;例如,其以用途、功能、場景作為單元,按照風險從低到高,將對人工智能的監管分為“低風險或無風險人工智能”“需要履行一定透明度義務的人工智能”“高風險人工智能”“無法接受的人工智能”四類。對于“低風險或無風險人工智能”,技術或服務提供者不需要承擔特別的義務,或者可以自愿承擔若干義務、進行一些標識活動。對于“需要履行一定透明度義務的人工智能”,被要求在人工智能產生的信息以及人工智能算法透明度方面履行一些法定義務。對于“高風險人工智能”,典型如對人事聘用進行決策,對醫療用藥提供建議和決策等場景,提供者需要履行嚴格的法定義務,也需要事先進行一系列評估。對于“無法接受的人工智能”,典型如對于自然人的社會信用狀態進行一般性的打分排名,則是禁止的。上述監管方式,有利于在保障人工智能技術發展和場景積累的同時,準確識別和監管真正具有風險的應用及場景,值得借鑒和參考。
征求意見稿規定,利用生成式人工智能生成的內容應當真實準確,應采取措施防止生成虛假信息,即俗稱的“結果保真”。但實際上,該領域不論從技術原理角度(典型如基于Transformer模型的“猜字猜詞式”生成路徑,并不是傳統意義上的“數據庫+檢索詞”原理),還是從應用場景角度(典型如圖片生成、視頻換臉、小說生成,本身就不意形成真實的輸出結果),都確實難以做到、也并不必須實現“結果保真”。這一點也是征求意見稿征求意見階段,諸多專家、學者和業界從業人員討論最為密集的“痛點”之一。
基于此,《暫行辦法》不再提及“結果保真”的相關要求,而專注于對訓練數據源合法合規性的要求、著力于強調訓練及生成結果質量的提高以及對人工標注工作合規性的引導,還原和精準定位了生成式人工智能監管的真正方向。此外,《暫行辦法》還專門提及,國家對利用生成式人工智能服務從事新聞出版、影視制作、文藝創作等活動另有規定的,從其規定。這也為精準監管生成式人工智能輔助該等領域部分場景下的“虛構創作”行為,鋪設了可適用的制度通道。對于面向何種用戶的生成式人工智能是監管的范圍,面向何種用戶的服務不是監管的范圍,《暫行辦法》在基本保持征求意見稿的框架同時,作出了更加清晰的規定。首先,利用生成式人工智能技術向中華人民共和國境內公眾提供生成文本、圖片、音頻、視頻等內容的服務,適用《暫行辦法》。其次,《暫行辦法》強調了如下例外:行業組織、企業、教育和科研機構、公共文化機構、有關專業機構等研發、應用生成式人工智能技術,未向境內公眾提供生成式人工智能服務的,不適用本辦法的規定。上述管轄邊界的規定與目前實踐中的做法相契合。實踐中,由于算法備案與安全評估(詳見下文介紹)辦理時間長,其中特定的環節的文書資料準備也具備一定難度,一部分服務提供者為盡早上線產品、開展場景測試與迭代,往往選擇面向境外用戶提供服務(其篩選用戶的典型方式是阻止來自中華人民共和國境內的IP地址注冊或使用,或僅允許境外手機號進行注冊)。這一“面向海外”的服務形態,確實不落入當前《暫行辦法》的監管管轄范圍內。因此,《暫行辦法》厘定監管邊界,一定程度上為希望盡快上線、僅面向海外用戶的服務提供者提供了制度上的便利通道。與“面向海外”的服務形態不在明確監管范圍之內相對,海外“面向境內”的生成式人工智能服務已經受到了監管的關注。具體地說,實踐中存在部分生成式人工智能服務提供者通過API直接調用境外大模型,用以提供特定服務、技術或適用已成型的數據資源的情形。該等操作易產生大模型自身合規風險、數據出境風險等一系列合規問題。針對這一情況,《暫行辦法》明確規定,對來源于中華人民共和國境外向境內提供生成式人工智能服務不符合法律、行政法規和本辦法規定的,國家網信部門應當通知有關機構采取技術措施和其他必要措施予以處置。綜合上述監管背景,從境內已有實踐訊息(典型如金融機構)來看,選擇與境內大模型提供者(特別是已經完成算法備案的大模型提供者)進行技術合作、接口調用,將會人工智能服務提供者成為更為合規、穩妥的選擇。 此外,《暫行辦法》規定,外商投資生成式人工智能服務行業,應當符合外商投資相關法律、行政法規的規定;體現了人工智能服務行業與現有的外商投資監管框架的接軌要求。盡管從當前監管架構來看,我國外商投資負面清單沒有一般性禁止外商投資生成式人工智能服務,但實踐中,特別是典型的“to C”(面向用戶的)生成式人工智能服務,相對容易在融合性應用場景下,涉及對外資有一定限制或禁止行業領域并受限于相關細分行業的外資準入要求。存在外資限制或禁止要求的資質典型如B25類增值電信業務經營許可證,《網絡文化經營許可證》,《網絡出版服務許可證》,《信息網絡傳播視聽節目許可證》,《廣播電視節目制作經營許可證》等。綜上所述,外國投資者如擬在中國經營或投資生成式人工智能行業,需明確,一方面,外資并非被一般性禁止進入生成式人工智能行業,另一方面,受限于生成式人工智能具體服務最終交付的模式形態,外國投資者宜實質性關注相關服務或產品是否觸發其他融合應用場景下的準入資質要求、該等準入資質要求是否禁止外商投資或者對外資股權比例有所限制。
5. 注重務實:訓練數據義務和模型改進義務的可行性回歸
征求意見稿對生成式人工智能服務提供者提出了非常高的與訓練數據源有關的義務,并規定,用于生成式人工智能產品的預訓練、優化訓練數據,應能夠保證數據的真實性、準確性、客觀性、多樣性。實踐中,一方面,數據是否“真實”“準確”“客觀”“多樣”本身沒有統一的標準,難以進行絕對把握或判斷;另一方面,即使就特定性質的數據而言,可能實現對其準確性的相對控制,但在大模型的行業應用語境下,企業對訓練數據的量級需求極大(且訓練數據量級及相應形成的參數量級甚至成為衡量大模型效果的最重要指標之一),如要求企業對訓練數據的“真實性、準確性、客觀性、多樣性”進行窮盡的審查并作出“保證”,事實上對企業作出了過重的合規要求。
基于上述考慮,《暫行辦法》將監管重點放在訓練數據來源合法、不侵權以及質量提升等方面,強化了合規要求可行性。具體地,其要求服務提供者使用具有合法來源的數據和基礎模型;涉及知識產權的,對數據源的使用不得侵害他人依法享有的知識產權;涉及個人信息的,對數據源的使用應當取得個人同意或者符合法律、行政法規規定的其他情形;采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性。實踐中,生成式人工智能行業企業可以通過從數據交易所以及產生數據或文字資料的行業性供應商采買,以獲取一些公共數據或公開數據,從而在一定程度上確保數據來源合法性。企業也可以在訓練過程中,對測試的生成結果進行適當監控、測算或核驗,逐步改善和提高訓練數據的真實性、多樣性。《暫行辦法》另一務實修訂是取消了征求意見稿對模型修改的時間限制。征求意見稿規定,對于運行中發現的、用戶舉報的不符合征求意見稿要求的生成內容,除采取內容過濾等措施外,應在3個月內通過模型優化訓練等方式防止其再次生成。從技術維度來看,受限于大模型技術機理設置,對其開展的優化訓練并不一定能夠完全或精準阻攔或隔斷特定具體內容的再次生成。從行業角度來看,不同技術機理的大模型,通過定向調優或定向訓練來精準、完全杜絕生成特定內容的難度,可能存在巨大差異。征求意見稿頒布后,一些從業者也對此作出了討論,認為在3個月內通過優化模型防止再次生成某些特定結果的技術可行性有限。基于此,《暫行辦法》采取更務實的路徑,規定提供者發現違法內容的,應當及時采取停止生成、停止傳輸、消除等處置措施,采取模型優化訓練等措施進行整改,并向有關主管部門報告。此類更具可行性的務實規定也使得企業有動力持續投入合理資源、漸進式落實合規要求。征求意見稿階段,其已經意在利用現有制度,作為生成式人工智能在“投放市場”之前的監管抓手;但在規則文本層面,存在一些具體銜接和關聯的細節差距。例如,征求意見稿規定,利用生成式人工智能產品向公眾提供服務前,應當按照《具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定》向國家網信部門申報安全評估,并按照《互聯網信息服務算法推薦管理規定》(簡稱“《算法推薦管理規定》”)履行算法備案和變更、注銷備案手續?!稌盒修k法》修改為,提供具有輿論屬性或者社會動員能力的生成式人工智能服務的,應當按照國家有關規定開展安全評估,并按照《算法推薦管理規定》履行算法備案和變更、注銷備案手續。
這一修改在制度層面上形成了更準確的銜接?!端惴ㄍ扑]管理規定》的制度是,具有輿論屬性或者社會動員能力的算法推薦服務提供者應當在提供服務之日起十個工作日內通過互聯網信息服務算法備案系統進行備案?!毒哂休浾搶傩曰蛏鐣訂T能力的互聯網信息服務安全評估規定》規定需要開展安全評估的五種情形中,前兩種情形是在上線或者功能增設前提交安全評估報告,后三種情形是自相關情形發生之日起30個工作日內提交安全評估報告。因此,兩個文件并非所有場景都要求在向公眾提供服務前完成備案和評估。《暫行辦法》的規定進行了更準確的描述,避免了制度間銜接的立法技術性難題。需要特別注意的是,在過去一段時間里,如果典型的生成式人工智能服務(在實踐層面,更多地體現為可感知的基于大模型的生成式服務)移動應用程序需要在應用市場上架,部分應用市場經營者可能會要求上架的移動應用的運營者事先完成算法備案和安全評估,客觀上與《算法推薦管理規定》的要求并不完全吻合。因此,在《暫行辦法》于8月份正式施行后,實踐中對于移動應用程序完成算法備案和安全評估的時點把握尺度以及APP上架審核要求是否會有所調整,也是值得觀察的一個方面。此外,根據我們對算法備案和安全評估的實際操作經驗,兩項手續的準備工作相對繁雜;特別是算法備案所需準備的材料,對申請人的內部制度的豐富性、體系性、完備性提出了較高的要求。依相關規定需要進行算法備案和安全評估的生成式人工智能服務提供者,應在研發階段盡早準備,特別是在制度建立方面“未雨綢繆”,方能在更大程度上增強及時完成算法備案和安全評估的可預見性,更好地匹配產品在境內公開上架的時間節點,避免陷入冗長的“內測”或被迫僅僅面向海外用戶運營。

生成式人工智能服務的提供者,目前視具體形態,在相當部分場景下也需要遵守《算法推薦管理規定》《互聯網信息服務深度合成管理規定》(簡稱“《深度合成管理規定》”)的要求。下表綜合《暫行辦法》《深度合成管理規定》和《算法推薦管理規定》,簡要列示合規控制點: