“大數(shù)據(jù)”已然從熱詞變成日常,而數(shù)據(jù)在釋放無限潛力的同時(shí),也引發(fā)了隱私泄露的巨大隱患。從若干年前科技公司野蠻生長,到近年來數(shù)據(jù)立法接踵而至,信息社會(huì)正在兩極之間尋求平衡。數(shù)據(jù)脫敏提供了這樣一種可能性——通過降低數(shù)據(jù)與主體之間的關(guān)聯(lián),可以同時(shí)保留較高的隱私保護(hù)程度和較大的數(shù)據(jù)利用價(jià)值。
“數(shù)據(jù)脫敏”專題文章將梳理匿名化、去標(biāo)識(shí)化、假名化等一系列相關(guān)概念,分析中國、歐盟、美國等法域?qū)Σ煌拍畹姆稍u(píng)價(jià),介紹數(shù)據(jù)脫敏的技術(shù)方案與隱私模型,探討各個(gè)業(yè)務(wù)場(chǎng)景下的行業(yè)實(shí)踐案例與法律落地方案,以推動(dòng)數(shù)據(jù)利用和隱私保護(hù)的平衡發(fā)展。
本文是“數(shù)據(jù)脫敏”專題文章的第一篇,首先需要回答最基礎(chǔ)的概念問題,也是實(shí)踐中容易混淆的問題——數(shù)據(jù)脫敏是一個(gè)法律概念或技術(shù)概念嗎?數(shù)據(jù)脫敏雖然是業(yè)界熱詞,但它并不是一個(gè)法律概念,也不是一個(gè)技術(shù)概念,甚至不是一個(gè)具體、特定的概念。實(shí)際上,數(shù)據(jù)脫敏一詞的輻射范圍非常廣泛,它可以涵蓋一系列多層次的法律概念和技術(shù)概念。
一.數(shù)據(jù)脫敏不是一個(gè)法律概念或技術(shù)概念
數(shù)據(jù)脫敏通常是指對(duì)敏感數(shù)據(jù)進(jìn)行技術(shù)處理,去除或降低其敏感度。數(shù)據(jù)脫敏是行業(yè)中的常用話術(shù),也出現(xiàn)在一些效力層級(jí)較低的法律文件中。

但嚴(yán)格來說,數(shù)據(jù)脫敏并不是一個(gè)法律概念。在個(gè)人信息保護(hù)的法律體系中,與數(shù)據(jù)脫敏相關(guān)的法律概念主要包括匿名化(anonymization)、去標(biāo)識(shí)化(de-identification)、假名化(pseudonymization)等。數(shù)據(jù)脫敏的起點(diǎn)是個(gè)人信息(personal information),即以電子或者其他方式記錄的、與已識(shí)別或者可識(shí)別的自然人有關(guān)的各種信息。中國、歐盟、美國等法域?qū)€(gè)人信息的定義基本一致,均強(qiáng)調(diào)了可識(shí)別性(identifiable),即該信息能否單獨(dú)或與其他信息相結(jié)合而識(shí)別特定的自然人。脫敏處理后的數(shù)據(jù)能否具有特定的法律地位,主要取決于其具體實(shí)現(xiàn)的程度和效果,于個(gè)人信息而言,即脫敏后在多大程度上仍可識(shí)別特定個(gè)人。
數(shù)據(jù)脫敏也不是一個(gè)嚴(yán)格的技術(shù)概念。從技術(shù)上而言,為了降低或去除數(shù)據(jù)與個(gè)人之間的聯(lián)系,可以采用統(tǒng)計(jì)、密碼、抑制、假名化、泛化、隨機(jī)化、數(shù)據(jù)合成等基礎(chǔ)技術(shù),并通過K-匿名、差分隱私等模型進(jìn)行隱私度量。近年來,聯(lián)邦學(xué)習(xí)、多方安全計(jì)算等技術(shù)也開始應(yīng)用于實(shí)踐。

二.數(shù)據(jù)脫敏的兩個(gè)維度
在個(gè)人信息保護(hù)的語境下,數(shù)據(jù)脫敏一般是指對(duì)個(gè)人信息進(jìn)行技術(shù)處理,去除或降低數(shù)據(jù)與個(gè)人之間的關(guān)聯(lián),導(dǎo)致個(gè)人在一定程度上不可識(shí)別。數(shù)據(jù)脫敏并不是一個(gè)嚴(yán)格的法律概念或技術(shù)概念,但是,對(duì)數(shù)據(jù)脫敏的理解離不開技術(shù)(過程)和法律(效果)這兩個(gè)維度。
其一,數(shù)據(jù)脫敏是一種技術(shù)處理的過程,包括選擇哪種脫敏技術(shù)或其組合,以及每種技術(shù)的實(shí)際實(shí)施強(qiáng)度。數(shù)據(jù)脫敏只是一個(gè)大類概念,實(shí)踐中需要基于具體的業(yè)務(wù)場(chǎng)景和需求,綜合考慮數(shù)據(jù)主體的授權(quán)與要求、數(shù)據(jù)的性質(zhì)與類型、數(shù)據(jù)處理的方式與目的、重識(shí)別的風(fēng)險(xiǎn)與后果、當(dāng)前可用的技術(shù)水平、合理的成本投入等因素,選擇合適的技術(shù)實(shí)現(xiàn)方案。
其二,數(shù)據(jù)脫敏是一種對(duì)處理效果的法律評(píng)價(jià),即經(jīng)過技術(shù)處理后的數(shù)據(jù),具體實(shí)現(xiàn)了哪種程度的不可識(shí)別。數(shù)據(jù)脫敏是一個(gè)漸進(jìn)的光譜,根據(jù)程度的遞增,例如從假名化、去標(biāo)識(shí)化到匿名化,法律將作出差異化評(píng)價(jià)。
實(shí)踐中常見的誤區(qū)是:將數(shù)據(jù)脫敏靜態(tài)地視為特定的技術(shù)處理,并概括認(rèn)為個(gè)人信息脫敏后即與個(gè)人脫離關(guān)聯(lián)。技術(shù)的視角有利于具象化地理解數(shù)據(jù)脫敏,但不可識(shí)別的程度才是法律上定義和區(qū)分?jǐn)?shù)據(jù)脫敏相關(guān)概念的本質(zhì)特征。
三.從本質(zhì)特征理解數(shù)據(jù)脫敏
可識(shí)別性是個(gè)人信息的本質(zhì)特征,不可識(shí)別性是數(shù)據(jù)脫敏的本質(zhì)特征。在個(gè)人信息與非個(gè)人信息之間,各國法上存在假名化、去標(biāo)識(shí)化、匿名化等概念。從本質(zhì)上說,相關(guān)概念的不可識(shí)別程度是漸進(jìn)的,包括單獨(dú)可識(shí)別、結(jié)合其他信息可識(shí)別/不借助其他信息不可識(shí)別、合理可能的不可識(shí)別、不可復(fù)原的不可識(shí)別。

數(shù)據(jù)脫敏的一端是單獨(dú)可識(shí)別的個(gè)人信息,典型例子是直接標(biāo)識(shí)符,即在特定環(huán)境下可以單獨(dú)識(shí)別個(gè)人的屬性,例如姓名、身份證號(hào)、電話號(hào)碼、地址、郵箱、銀行卡號(hào)、學(xué)生證號(hào)、車牌號(hào)、設(shè)備標(biāo)識(shí)符、生物識(shí)別碼、IP地址等。
數(shù)據(jù)脫敏的另一端是不可識(shí)別個(gè)人的非個(gè)人信息,如經(jīng)匿名化處理的信息。應(yīng)特別注意的是,各國對(duì)匿名化的要求并不相同,例如:歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)的匿名化是基于“合理可能”(reasonably likely)標(biāo)準(zhǔn)而言的——綜合考慮技術(shù)、成本、時(shí)間等因素,數(shù)據(jù)控制者或其他人采用了所有合理可能的方法,仍無法直接或間接識(shí)別數(shù)據(jù)主體;而我國現(xiàn)行法下不僅要求個(gè)人信息主體無法被識(shí)別,還要求匿名化處理后的信息不能被復(fù)原。
數(shù)據(jù)脫敏的中間狀態(tài),是結(jié)合其他信息可識(shí)別、而不借助其他信息不可識(shí)別。這在我國被稱為“去標(biāo)識(shí)化”,它的不可識(shí)別是可復(fù)原的,而它的可識(shí)別依賴于額外信息。例如,1997年,美國馬薩諸塞州公布的健康數(shù)據(jù)刪除了姓名、地址、社會(huì)保險(xiǎn)號(hào)等直接標(biāo)識(shí)符,因此無法直接識(shí)別個(gè)人,但哈佛大學(xué)教授Sweeney將該健康數(shù)據(jù)與當(dāng)?shù)氐倪x民名冊(cè)進(jìn)行對(duì)比,輕松找出了Weld州長——因?yàn)榕c他具有相同的出生日期、性別、郵政編碼的人只有他自己。
總體而言,數(shù)據(jù)脫敏的相關(guān)概念主要以不可識(shí)別的程度為標(biāo)準(zhǔn),隨著程度的量變而實(shí)現(xiàn)概念的質(zhì)變,但各個(gè)概念之間并非涇渭分明,而有賴于具體場(chǎng)景下的綜合判斷。
本期小結(jié)與下期預(yù)告:數(shù)據(jù)脫敏并非一個(gè)特定的法律概念或技術(shù)概念,而是一個(gè)包羅萬象的框架性概念。可以從兩個(gè)維度理解數(shù)據(jù)脫敏,它既包括技術(shù)處理的過程,也包括對(duì)處理效果的法律評(píng)價(jià)。脫敏處理之后所實(shí)現(xiàn)的不可識(shí)別程度,是區(qū)分匿名化、去標(biāo)識(shí)化、假名化等法律概念的本質(zhì)特征。然而,不同法域?qū)ν环筛拍畹亩x和尺度并不相同,極易造成混淆。下期文章將為您解讀中國、歐盟、美國等法域下對(duì)匿名化、去標(biāo)識(shí)化、假名化所掌握的不同尺度。
京ICP備05019364號(hào)-1
京公網(wǎng)安備110105011258