大數(shù)據(jù)時(shí)代下,“匿名化”真的能保護(hù)我們的隱私安全嗎?

2019-06-03 行業(yè)研究互聯(lián)網(wǎng)思維大數(shù)據(jù)

展示量: 61429

 

坦誠(chéng)面對(duì)數(shù)據(jù)帶來(lái)的價(jià)值和風(fēng)險(xiǎn),并謹(jǐn)慎權(quán)衡。

 

大數(shù)據(jù)時(shí)代下,數(shù)據(jù)的收集與應(yīng)用在帶來(lái)巨大社會(huì)價(jià)值的同時(shí),也帶來(lái)了個(gè)人隱私保護(hù)方面的難題。如何在對(duì)數(shù)據(jù)進(jìn)行挖掘應(yīng)用的過(guò)程中保護(hù)個(gè)人隱私,防止敏感信息泄露成為新的挑戰(zhàn)。

 

在此前備受關(guān)注的“劍橋分析公司數(shù)據(jù)泄露”事件中,F(xiàn)acebook上超過(guò)5000萬(wàn)用戶的信息被一家名為“Cambridge Analytica”的公司不當(dāng)獲取并用于未經(jīng)授權(quán)的目的。然而,根據(jù)Facebook的解釋,這些個(gè)人信息,例如用戶填寫的心理測(cè)試結(jié)果,全部是在經(jīng)過(guò)“匿名化”處理后才被用于對(duì)外分享的。公司表示,在獲取用戶的授權(quán)后,這些數(shù)據(jù)會(huì)“通過(guò)匿名的方式被使用和分發(fā),并且保證即使利用這些信息也不能追溯到個(gè)人用戶”。

 

然而“匿名化”真的可以在大數(shù)據(jù)時(shí)代保護(hù)我們的個(gè)人隱私嗎?

 

2015年,數(shù)據(jù)匿名化和隱私領(lǐng)域的研究員Latanya Sweeney針對(duì)華盛頓HIPAA(Health Insurance Portability and Accountability)法案保護(hù)下的醫(yī)療記錄數(shù)據(jù)進(jìn)行了一項(xiàng)“去匿名化”研究。在該州(以及許多其他州),公司和個(gè)人可以購(gòu)買匿名的醫(yī)療記錄數(shù)據(jù)。Sweeney通過(guò)合法渠道購(gòu)買相關(guān)數(shù)據(jù),其中包括“該州一年內(nèi)幾乎所有的住院治療記錄”以及就診記錄相關(guān)的大量細(xì)節(jié),包括患者接受的診斷、手術(shù),主治醫(yī)生信息、收費(fèi)摘要等等。這些記錄都是匿名的,因?yàn)樗鼈儾话颊叩男彰虻刂?,但包括患者所在地址的郵政編碼。

 

之后,Sweeney查閱了華盛頓州自2011年以來(lái)刊發(fā)的所有包含“住院治療”一詞的新聞報(bào)道,總共找到了81篇文章。通過(guò)對(duì)文章內(nèi)容和匿名數(shù)據(jù)庫(kù)進(jìn)行比對(duì)分析,Sweeny發(fā)現(xiàn)其中35篇報(bào)道能夠在數(shù)據(jù)庫(kù)中找到與之精準(zhǔn)對(duì)應(yīng)的唯一醫(yī)療記錄。而這些新聞報(bào)道中明確包含了患者的姓名,“成功”實(shí)現(xiàn)了對(duì)這35名患者的“去匿名化”。

 

眾所周知,數(shù)據(jù)已成為現(xiàn)代社會(huì)發(fā)展的重要推動(dòng)力。研究人員會(huì)收集大量的數(shù)據(jù),并基于數(shù)據(jù)開(kāi)展研究工作。Google的數(shù)據(jù)庫(kù)可以包含你的完整搜索歷史記錄;Facebook存儲(chǔ)著大量用戶的行為、評(píng)論和照片信息。這些數(shù)據(jù)決定著我們會(huì)看到哪些新聞、電影和廣告,哪些朋友的帖子會(huì)出現(xiàn)在我們社交媒體的feed流中,以及哪些潛在的伴侶會(huì)出現(xiàn)在我們的交友a(bǔ)pp中。然而,這里涉及的大部分?jǐn)?shù)據(jù)都與我們的個(gè)人隱私息息相關(guān)。

 

政府、企業(yè)和研究機(jī)構(gòu)持續(xù)收集著大量的數(shù)據(jù)

 

通常情況下,我們不會(huì)向陌生人透露我們的信用卡記錄或醫(yī)療記錄,因?yàn)槲覀儗?duì)這些數(shù)據(jù)的敏感性有著清晰的認(rèn)識(shí)。那么,為什么我們會(huì)泄露這些最私密的個(gè)人信息呢?原因是大多數(shù)人首先是數(shù)據(jù)“泄露”的受益者。Google通過(guò)收集數(shù)據(jù)優(yōu)化搜索體驗(yàn),并幫助Gmail過(guò)濾垃圾郵件;用戶信用卡記錄可以幫助銀行監(jiān)測(cè)信用卡盜刷行為;醫(yī)療記錄可以幫助研究人員研發(fā)新藥,或者幫助醫(yī)生制定更好的治療計(jì)劃。

 

但人們享受這些益處并非沒(méi)有代價(jià)。政府、企業(yè)和研究機(jī)構(gòu)持續(xù)進(jìn)行著大量的數(shù)據(jù)收集,而這僅僅是這一系列數(shù)據(jù)旅程的開(kāi)始。它們將被重新打包,與來(lái)自其他來(lái)源的數(shù)據(jù)相結(jié)合,并通過(guò)合法或非法的方式被轉(zhuǎn)售給“需要的人”。典型的數(shù)據(jù)包括:

 

? 你的位置(包括實(shí)時(shí)的與歷史上的)

 

? 你的信用卡交易記錄

 

? 你的網(wǎng)站瀏覽歷史記錄

 

? 你在網(wǎng)站的登錄憑據(jù)

 

? 你的社會(huì)安全號(hào)碼

 

? 你的醫(yī)療記錄

 

即使你認(rèn)為自己并沒(méi)有什么需要隱藏的“秘密”,對(duì)個(gè)人數(shù)據(jù)的濫用仍可能對(duì)你造成不利影響。因此,大部分相關(guān)方在存儲(chǔ)或轉(zhuǎn)售個(gè)人信息時(shí),一直在努力實(shí)現(xiàn)個(gè)人數(shù)據(jù)的“匿名化”。某些情況下,數(shù)據(jù)匿名化存在法律要求,例如HIPAA對(duì)個(gè)人醫(yī)療數(shù)據(jù)的要求,盡管HIPAA提供的保護(hù)并不像大多數(shù)人想象的那么強(qiáng)。類似的,歐盟最新的通用數(shù)據(jù)保護(hù)條例(GDPR)對(duì)能夠識(shí)別個(gè)人身份信息的數(shù)據(jù)提出了嚴(yán)格的使用限制,相比之下,GDPR對(duì)匿名數(shù)據(jù)的使用限制則較少。

 

除此之外,有些公司已經(jīng)將“數(shù)據(jù)匿名化”作為其戰(zhàn)略的一部分。例如,與Google和Facebook不同,Apple刻意減少對(duì)數(shù)據(jù)的收集,因?yàn)閾碛写罅繑?shù)據(jù)可能會(huì)使公司更容易成為黑客的目標(biāo)。同時(shí),Apple努力對(duì)收集的數(shù)據(jù)進(jìn)行匿名化處理,并且不會(huì)對(duì)外轉(zhuǎn)售用戶數(shù)據(jù)。

 

這些舉措很有勇氣,值得鼓勵(lì)。遺憾的是,研究表明,許多匿名化數(shù)據(jù)都很容易被“去匿名化”,尤其是當(dāng)多個(gè)數(shù)據(jù)來(lái)源有一定程度的重疊的時(shí)候,區(qū)別一個(gè)數(shù)據(jù)來(lái)源和另一個(gè)數(shù)據(jù)來(lái)源的任一信息都能被用于去匿名化。

 

這里有一個(gè)關(guān)于“去匿名化”的知名案例。2006年,Netflix為改善其電影推薦服務(wù),公布了包含部分用戶評(píng)分的數(shù)據(jù)庫(kù),其中包括用戶對(duì)電影的評(píng)分和評(píng)分日期。該數(shù)據(jù)庫(kù)是匿名的,采用隨機(jī)更改數(shù)據(jù)庫(kù)中包含的大約480,000個(gè)用戶的部分評(píng)級(jí)和評(píng)級(jí)日期等方法對(duì)數(shù)據(jù)庫(kù)進(jìn)行匿名化處理。

 

盡管存在這些干擾,但研究人員的實(shí)驗(yàn)結(jié)果表明:只需非常少的輔助信息,就可以對(duì)Netflix數(shù)據(jù)庫(kù)中的大部分的用戶記錄進(jìn)行去匿名化。通過(guò)8部電影的評(píng)分,和允許誤差14天的評(píng)分日期,就可以唯一標(biāo)識(shí)數(shù)據(jù)庫(kù)中99%的用戶;而僅通過(guò)2部電影,就可以標(biāo)識(shí)68%的用戶。而一個(gè)人觀看8部電影的記錄很容易獲得,通過(guò)與其聊天或者查看他的博客就有可能得到。

 

電影評(píng)級(jí)可能看似無(wú)害,它們顯然不如醫(yī)療記錄敏感,但仍然可以揭示一個(gè)人的政治觀點(diǎn)、宗教信仰和性取向等,從而嚴(yán)重侵犯一個(gè)人的隱私并使其處于危險(xiǎn)之中。這對(duì)于當(dāng)前的數(shù)據(jù)驅(qū)動(dòng)型社會(huì)來(lái)說(shuō)是一個(gè)嚴(yán)峻的挑戰(zhàn)。

 

隨著更多數(shù)據(jù)的公開(kāi)或泄露去匿名化將變得更加容易

 

現(xiàn)實(shí)是,我們的數(shù)據(jù)正在被越來(lái)越多地被泄露和盜取。非營(yíng)利組織Privacy Rights Clearinghouse的研究顯示,自2005年開(kāi)始,14年中共發(fā)生了8804次數(shù)據(jù)泄露,超過(guò)115億條記錄被泄露。這意味著自2005年以來(lái),平均每天發(fā)生1.7次數(shù)據(jù)泄露,220萬(wàn)條記錄被泄露。當(dāng)別有用心的人將所有這些數(shù)據(jù)拼湊在一起時(shí),數(shù)據(jù)的去匿名化將變的更加容易。

 

對(duì)于相關(guān)領(lǐng)域的學(xué)者來(lái)說(shuō),這些擔(dān)憂并不是什么新聞。2010年,個(gè)人隱私律師Paul Ohm就曾在《UCLA法律評(píng)論》中刊文指出,雖然惡意攻擊者可以使用個(gè)人身份信息(如姓名或社會(huì)安全號(hào)碼)將數(shù)據(jù)與個(gè)人身份進(jìn)行關(guān)聯(lián),但事實(shí)證明,即便只擁有那些不會(huì)被歸類為“個(gè)人身份信息”的信息,他們也可以達(dá)到同樣的目的。

 

Ohm參考了Sweeney早期的一些研究,她發(fā)現(xiàn)1990年美國(guó)人口普查中有87%的人可以通過(guò)兩條信息進(jìn)行唯一識(shí)別:他們的出生日期和他們住址的郵政編碼。Ohm還引用了Netflix以及其他有關(guān)數(shù)據(jù)泄露的案例,并得出結(jié)論:在傳統(tǒng)的以個(gè)人身份信息為保護(hù)重點(diǎn)的匿名化技術(shù)下,幾乎任何數(shù)據(jù)都無(wú)法實(shí)現(xiàn)永久的完全匿名。

 

2013年,研究人員發(fā)現(xiàn)位置數(shù)據(jù)具有高度的獨(dú)特性,因此更加難以匿名化。許多匿名數(shù)據(jù)庫(kù)都可能間接泄露你的位置,例如刷卡消費(fèi)或前往醫(yī)院就診。研究人員發(fā)現(xiàn),通過(guò)每小時(shí)記錄4次手機(jī)連接到的信號(hào)發(fā)射塔,就可以對(duì)95%的設(shè)備進(jìn)行唯一識(shí)別。如果數(shù)據(jù)更精細(xì)(GPS跟蹤而不是信號(hào)發(fā)射塔,或者實(shí)時(shí)采集而不是每小時(shí)采集),匹配則會(huì)變得更加容易。

 

數(shù)據(jù)的合理利用具有積極的社會(huì)價(jià)值

 

然而不可否認(rèn)的是,盡管面臨被濫用的風(fēng)險(xiǎn),但數(shù)據(jù)的合理利用同時(shí)又具有很多積極的社會(huì)價(jià)值。我們希望醫(yī)學(xué)研究人員創(chuàng)造新的藥物和治療方法、希望我們的房屋能夠自動(dòng)調(diào)節(jié)到舒適的溫度、希望Google地圖提示我們前方道路擁堵。我們渴望大數(shù)據(jù)帶來(lái)的益處,卻又不想面臨去匿名化的風(fēng)險(xiǎn)。

 

然而事實(shí)是,我們必須做出權(quán)衡。我們已經(jīng)被迫放棄了一些隱私,未來(lái)可能還需要放棄更多,但真正關(guān)鍵的是如何降低我們的隱私被濫用的可能性。

 

保護(hù)敏感數(shù)據(jù)和防止未經(jīng)授權(quán)的訪問(wèn)必須成為每一個(gè)數(shù)據(jù)收集者的第一要?jiǎng)?wù)。同時(shí),監(jiān)管機(jī)構(gòu)也應(yīng)持續(xù)加強(qiáng)對(duì)個(gè)人數(shù)據(jù)隱私的保護(hù)力度。例如,GDPR鼓勵(lì)公司存儲(chǔ)更少的數(shù)據(jù)并盡最大努力對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行匿名化處理,即使這并非100%有效。

 

同樣,參與數(shù)據(jù)收集和存儲(chǔ)的每一方都應(yīng)該及時(shí)了解最新的隱私保護(hù)技術(shù)。例如差分隱私(Differential Privacy,一種基于密碼學(xué)的隱私保護(hù)技術(shù))這樣的策略,即在數(shù)據(jù)庫(kù)發(fā)布之前將一些隨機(jī)噪聲添加到數(shù)據(jù)庫(kù)中,這有助于減少基于數(shù)據(jù)關(guān)聯(lián)性的攻擊。Apple和Google都在研究差分隱私策略方面付出了很多努力,這些舉措值得借鑒。

 

總而言之,我們需要坦誠(chéng)面對(duì)數(shù)據(jù)帶來(lái)的價(jià)值和風(fēng)險(xiǎn),并謹(jǐn)慎權(quán)衡。一方面,我們希望釋放大數(shù)據(jù)的力量,為我們的生活帶來(lái)積極的改善。而另一方面,大量數(shù)據(jù)存在的本身就是一種隱私風(fēng)險(xiǎn)。如果我們放棄過(guò)多的隱私,大數(shù)據(jù)則可能進(jìn)一步剝奪我們的自由。

 

 

知名風(fēng)險(xiǎn)投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達(dá)晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國(guó)|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢(shì)資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國(guó)風(fēng)投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀(jì)源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險(xiǎn)峰華興創(chuàng)投|中投|海通開(kāi)元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團(tuán)|招商湘江投資|元禾控股|力合創(chuàng)投|復(fù)星創(chuàng)富|陜西高投|光速創(chuàng)投|富達(dá)亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團(tuán)|摩根士丹利|青云創(chuàng)投|建銀國(guó)際|德豐杰|弘毅投資|CVC|藍(lán)馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國(guó)際|山東高新投|集富亞洲|騰訊|無(wú)錫創(chuàng)投|創(chuàng)新工場(chǎng)|智基創(chuàng)投|策源創(chuàng)投|軟銀中國(guó)|
Copyright©創(chuàng)業(yè)聯(lián)合網(wǎng) ALL Rights Reserved
滬ICP備2024089025號(hào)-2
商務(wù)與客服聯(lián)系微信