“大數(shù)據(jù)”已然從熱詞變成日常,而數(shù)據(jù)在釋放無(wú)限潛力的同時(shí),也引發(fā)了隱私泄露的巨大隱患。從若干年前科技公司野蠻生長(zhǎng),到近年來(lái)數(shù)據(jù)立法接踵而至,信息社會(huì)正在兩極之間尋求平衡。數(shù)據(jù)脫敏提供了這樣一種可能性——通過(guò)降低數(shù)據(jù)與主體之間的關(guān)聯(lián),可以同時(shí)保留較高的隱私保護(hù)程度和較大的數(shù)據(jù)利用價(jià)值。
“數(shù)據(jù)脫敏”專題文章將梳理匿名化、去標(biāo)識(shí)化、假名化等一系列相關(guān)概念,分析中國(guó)、歐盟、美國(guó)等法域?qū)Σ煌拍畹姆稍u(píng)價(jià),介紹數(shù)據(jù)脫敏的技術(shù)方案與隱私模型,探討各個(gè)業(yè)務(wù)場(chǎng)景下的行業(yè)實(shí)踐案例與法律落地方案,以推動(dòng)數(shù)據(jù)利用和隱私保護(hù)的平衡發(fā)展。
上期回顧:中國(guó)、歐盟、美國(guó)等法域都有匿名化(anonymization)、去標(biāo)識(shí)化(de-identification)、假名化(pseudonymization)等概念,但各個(gè)法域?qū)ν桓拍畹亩x存在差異,即對(duì)不可識(shí)別的程度要求不同。

中國(guó)、歐盟對(duì)常用的脫敏技術(shù)制定了介紹性指南。實(shí)踐中,一個(gè)常見的誤區(qū)是將特定技術(shù)機(jī)械地對(duì)應(yīng)特定的數(shù)據(jù)脫敏效果評(píng)價(jià),例如,泛化技術(shù)、隨機(jī)化技術(shù)就是匿名化。但實(shí)際上,各國(guó)立法并沒(méi)有對(duì)一類技術(shù)進(jìn)行概括性評(píng)價(jià),而是對(duì)技術(shù)處理所實(shí)現(xiàn)的具體效果進(jìn)行法律評(píng)價(jià),因?yàn)橥患夹g(shù)在特定的實(shí)施強(qiáng)度和應(yīng)用場(chǎng)景下,可以實(shí)現(xiàn)不同程度的脫敏效果。
本文將介紹統(tǒng)計(jì)、密碼、抑制、假名化、泛化、隨機(jī)化、數(shù)據(jù)合成等數(shù)據(jù)脫敏技術(shù)的基本原理,并舉例說(shuō)明同一技術(shù)的效果跨度。每種技術(shù)的特點(diǎn)和閾值各不相同,實(shí)踐中基于特定的場(chǎng)景和目標(biāo),可以選擇適合的技術(shù)及實(shí)施強(qiáng)度,從而平衡數(shù)據(jù)的可用性和安全性。

一、數(shù)據(jù)脫敏的技術(shù)與原理
(一)統(tǒng)計(jì)技術(shù)
1、數(shù)據(jù)抽樣(sampling):從原始數(shù)據(jù)集抽取若干數(shù)量、若干屬性的樣本,從而使攻擊者無(wú)法確定某個(gè)目標(biāo)個(gè)體是否在抽樣數(shù)據(jù)集之中。
2、數(shù)據(jù)聚合(aggregation):對(duì)原始數(shù)據(jù)集的屬性值進(jìn)行統(tǒng)計(jì),僅輸出統(tǒng)計(jì)特性(例如求和、計(jì)數(shù)、平均值、最大值、最小值、方差、標(biāo)準(zhǔn)差等),從而降低披露個(gè)體信息的風(fēng)險(xiǎn)。
(二)密碼技術(shù)
1、確定性加密(deterministic encryption)(屬于非隨機(jī)加密):通過(guò)密鑰對(duì)數(shù)據(jù)進(jìn)行加密。
2、同態(tài)加密(homomorphic encryption)(屬于隨機(jī)加密):允許人們對(duì)加密數(shù)據(jù)進(jìn)行運(yùn)算,運(yùn)算結(jié)果解密后等同于對(duì)不加密的數(shù)據(jù)進(jìn)行相同運(yùn)算的結(jié)果。
以云計(jì)算場(chǎng)景為例。在傳統(tǒng)模式下,用戶需要信任云服務(wù)提供商不會(huì)竊取甚至泄露用戶數(shù)據(jù)。而同態(tài)加密可從根本上解決數(shù)據(jù)處理過(guò)程的保密與安全,同時(shí)保護(hù)用戶的數(shù)據(jù)和云服務(wù)提供商的計(jì)算模型。

(三)抑制技術(shù)
1、屏蔽(masking):刪除直接標(biāo)識(shí)符或其中一部分,例如將手機(jī)號(hào)或身份證號(hào)的其中四位變成****。
2、局部抑制(local suppression):刪除特定的屬性值,以免它和其他屬性相結(jié)合而識(shí)別個(gè)體。這種技術(shù)通常適用于比較稀有的屬性值,例如罕見的Rh陰性血型。
(四)假名化技術(shù)
1、假名化(pseudonymization)是指用生成的假名代替標(biāo)識(shí)符的原始值。
2、獨(dú)立于標(biāo)識(shí)符的假名化:用假名代替標(biāo)識(shí)符的原始值,并創(chuàng)建假名與原始值的分配表。此處的假名是指與標(biāo)識(shí)符無(wú)關(guān)的隨機(jī)值,還可以采取“多對(duì)一”(多個(gè)原始值對(duì)應(yīng)一個(gè)假名)的方式,但這會(huì)降低數(shù)據(jù)的可用性。
3、基于標(biāo)識(shí)符的假名化:通過(guò)加密、散列/哈希等密碼技術(shù),在標(biāo)識(shí)符原始值的基礎(chǔ)上生成假名。加密技術(shù)通常是一一對(duì)應(yīng)的,可以通過(guò)密鑰和算法進(jìn)行解密,還原標(biāo)識(shí)符的原始值。散列函數(shù)是一種單向運(yùn)算,保密性更好,而難以逆向還原原始值。
(五)泛化技術(shù)
泛化(generalization)是指降低屬性值的粒度,對(duì)屬性進(jìn)行更抽象、更概括的描述。例如,將姓名泛化成姓,將市泛化成省,對(duì)數(shù)字進(jìn)行取整、設(shè)置區(qū)間、最大值或最小值。例如,將年收入的確切數(shù)值泛化成10萬(wàn)及其以下、10萬(wàn)到100萬(wàn)、100萬(wàn)及其以上三個(gè)區(qū)間,從而使更多的個(gè)體共享同一屬性值、降低重標(biāo)識(shí)的概率。
(六)隨機(jī)化技術(shù)
隨機(jī)化(randomization)是指隨機(jī)修改屬性值,這將破壞數(shù)據(jù)集的真實(shí)性。
1、噪聲添加:添加隨機(jī)值/噪聲到某一屬性中,同時(shí)盡可能維持該屬性的原始統(tǒng)計(jì)特征。
2、置換:對(duì)數(shù)據(jù)集中某一屬性的值進(jìn)行重新排序,即,將某一個(gè)體的屬性值置換給另一個(gè)體。
3、微聚集:對(duì)某一屬性進(jìn)行排序和分組,接近的屬性值分為一組,并用每組的平均值來(lái)代替該組的所有原始值。

(7)數(shù)據(jù)合成技術(shù)
數(shù)據(jù)合成技術(shù)(synthetic data)是指通過(guò)人工方式生成數(shù)據(jù)集,該合成數(shù)據(jù)集與原始數(shù)據(jù)集的特性相符。
二、法律對(duì)脫敏技術(shù)的評(píng)價(jià)
我國(guó)的《個(gè)人信息去標(biāo)識(shí)化指南》和國(guó)際標(biāo)準(zhǔn)化組織的《隱私增強(qiáng)數(shù)據(jù)去標(biāo)識(shí)化術(shù)語(yǔ)和技術(shù)分類》(ISO/IEC 20889)將上述七種技術(shù)作為去標(biāo)識(shí)化技術(shù)進(jìn)行了列舉說(shuō)明,而歐盟的《關(guān)于匿名化技術(shù)的意見》將其中的泛化技術(shù)、隨機(jī)化技術(shù)作為主要的匿名化技術(shù)。但是,這并不意味著使用特定技術(shù)必將實(shí)現(xiàn)特定效果。泛化技術(shù)、隨機(jī)化技術(shù)既可能實(shí)現(xiàn)去標(biāo)識(shí)化、也可能實(shí)現(xiàn)匿名化,主要取決于特定的技術(shù)方案實(shí)現(xiàn)了哪種程度的不可識(shí)別。
關(guān)于脫敏技術(shù)的法律評(píng)價(jià),應(yīng)當(dāng)注意以下幾點(diǎn):
1、不同技術(shù)的脫敏能力存在差異
不同的脫敏技術(shù)有其特點(diǎn)和閾值。例如,統(tǒng)計(jì)、泛化、隨機(jī)化等技術(shù)有可能實(shí)現(xiàn)“不可復(fù)原的不可識(shí)別”,但假名化技術(shù)最多實(shí)現(xiàn)“結(jié)合其他信息可識(shí)別/不借助其他信息不可識(shí)別”的效果。
歐盟《關(guān)于匿名化技術(shù)的意見》中特別強(qiáng)調(diào),假名化無(wú)法作為匿名化的方法之一,因?yàn)榧倜m然降低了數(shù)據(jù)集和數(shù)據(jù)主體身份之間的聯(lián)系,但數(shù)據(jù)主體仍有可能被間接識(shí)別。例如,用戶在社交網(wǎng)絡(luò)上使用的昵稱即是一種假名,但結(jié)合用戶發(fā)布的其他信息,仍有可能識(shí)別該用戶的身份。
2、同一技術(shù)的實(shí)施強(qiáng)度存在差異
就同一脫敏技術(shù)而言,其具體的實(shí)施強(qiáng)度也存在差異。例如,身份證號(hào)中屏蔽的數(shù)字如果是生日而不是最后四位,則安全效果較差,因?yàn)閭€(gè)人經(jīng)常在好友慶生、入職信息表、注冊(cè)會(huì)員等場(chǎng)景下暴露自己的生日,容易還原原始的身份證號(hào)。
泛化技術(shù)也可以設(shè)置不同的顆粒度,例如對(duì)地址數(shù)據(jù)的泛化,從精確的門牌號(hào)到小區(qū)、街道、區(qū)縣、地市、省、國(guó)家,不可識(shí)別的程度不斷加深,但數(shù)據(jù)的價(jià)值也隨之折損。因此,歐盟的《關(guān)于匿名化技術(shù)的意見》一方面認(rèn)可泛化技術(shù)可以實(shí)現(xiàn)匿名化,一方面強(qiáng)調(diào)它并不是在一切情形下都能有效實(shí)現(xiàn)匿名化。
3、具體場(chǎng)景也會(huì)影響技術(shù)處理的效果
對(duì)脫敏技術(shù)的法律評(píng)價(jià)不是抽象的,而是基于具體的應(yīng)用場(chǎng)景,因?yàn)樘囟ǖ那樾螘?huì)影響技術(shù)處理的效果。例如,統(tǒng)計(jì)技術(shù)往往可以隱匿個(gè)人,但一旦結(jié)合背景知識(shí)仍可能暴露個(gè)人。假設(shè)在某個(gè)社區(qū)中,患有高血壓的人數(shù)為40人,從40這個(gè)統(tǒng)計(jì)值中,一般無(wú)法識(shí)別出患者的身份;但是,當(dāng)搬來(lái)一個(gè)新住戶后,如果患病人數(shù)變?yōu)?1人,則可以判斷出該新住戶患有高血壓。因此,統(tǒng)計(jì)數(shù)據(jù)在特定場(chǎng)景下并不必然是匿名的。
本期小結(jié)與下期預(yù)告:數(shù)據(jù)脫敏可以采用統(tǒng)計(jì)、密碼、抑制、假名化、泛化、隨機(jī)化、數(shù)據(jù)合成等技術(shù)及其組合。不同技術(shù)的脫敏能力存在差異,同一技術(shù)的實(shí)施強(qiáng)度存在差異,具體場(chǎng)景也會(huì)影響技術(shù)處理的效果,因此,法律對(duì)脫敏技術(shù)的評(píng)價(jià)并不是一刀切的,而是具體考量技術(shù)所實(shí)現(xiàn)的效果。那么,下一個(gè)需要回答的問(wèn)題是,法律上如何衡量脫敏的效果?下期文章將為您介紹定性、定量這兩類衡量標(biāo)準(zhǔn)。
京ICP備05019364號(hào)-1
京公網(wǎng)安備110105011258