如何看待Facebook数据门事件以及剑桥大学心理学家Kogan滥用性格测试信息_3

2020-02-13 22:13:25

先放上我的观点吧,请不要人身攻击。互相尊重彼此的观点。我的结论是,这一波Facebook纯属背锅,挺冤的。==============================悄咪咪更新一波,我猜作为吃瓜群众的我们,最关心的还是各种媒体声称的天价2兆亿罚款。然而我去查了一下这事儿,越发觉得这说法不靠谱。首先有个前提需要知道,这次CA的数据收集主要还是在北美地区,即使它是在剑桥的数据公司。知道这个前提之后再来看欧洲的个人数据保护法(EUdataprotectionlaws)以及GDPR(generaldataprotectionregulation)。所有的一切,有个大前提,该数据保护法只保护欧盟成员国的公民,并不限制美国公民。HarmonizingdataprotectionlegislationacrossEUmemberstates;GDPRisaregulation,whichisdirectlyapplicabletoallEUmemberstatesProtectingfundamentalrightsandfreedomsofEUcitizensGivingDataSubjectsfullcontrolovertheirpersonalinformationStrengtheningthelevelofcompliancewithfocusonpoliciesandproceduresIncreasingexposureofweakpracticesandsecurityPuttingmoreemphasisonsafedataflowsIntroducinganewpunishmentregimewithheftierfines所以直观来看,这个罚款也就和FB没什么关系了,毕竟被拿数据的都是美国公民。再仔细看相关的条款,提到了PD(personaldata)以及SpecialCategoryofData两个概念。首先PD:也就是我们常说的PII,个人隐私数据Anyinformationrelatingtoanidentifiedoridentifiablenaturalperson.Basically,anypieceofinformationthatcanbeusedtodirectlyorindirectlyidentifyanindividual.再来看SpecialCategoryofData,也就是包括政治,健康,性生活等的敏感数据SCDispersonalinformationthatrevealsaperson’sracialorethnicorigin,politicalopinions,religiousorphilosophicalbeliefs,tradeunionmembership,health,sexlife,orsexualorientation.Italsoincludesgeneticdataorbiometricdata.Itrequiresahigherlevelofprotection.那么在这样的假设之下,即使FB全责,所有的用户都是欧盟成员国公民,需要支付的罚款也只有27万*4万而不是媒体宣称的5000万*4万因为除去27万用户,其余的5000万用户的数据并不包括PII和SCD============================================================小背景==============================首先有个背景,我觉得我对这事儿挺有发言权的。因为我在2015年的1月到5月期间,在学校的时候,做的项目和这件事里面的剑桥分析(CambridgeAnalytica)后面简称CA,其实做的如出一辙。当然,那时候我还是个菜鸡。为什么说我们做的项目其实是一样的呢,先来看CA做的事情,首先他们开发了一个在Facebook上的App,然后类似于心理小测试,接着当你做完这个测试之后CA就有了你各个维度上的偏好,就可以做出一个人物心理性格描绘(psychographicprofiles),然后根据这些数据分析时势。关于5000万用户我们后面再说。那么,我们,在同样的时间点,也是2015年早期。基于之前一个PHD学生的论文,一种基于用户喜好给用户好友分组的算法。我们在Facebook上也发布了一个应用,首先需要申请调用facebook的开发者API,提出申请,大致上就是这只会基于学术研究,保密数据等等。然后我们给周边的朋友发链接,让他们打开这个App,然后同意用户协议,紧接着我们会收集用户的Likes(点赞)和Posts(朋友圈),再然后寻找该用户的其他朋友(根据该用户的好友列表获得ID),回调好友ID,取得该用户所有好友的Likes和Posts,划重点,这里有个前提,该用户好友的资料也必须是公开的,如果是保密的,除了用户ID其他什么有用的信息都没有。做完这些之后我们有了一个完全的数据库,然后根据上面的算法,给用户推荐合适的好友分组。后来大概在2015年5月的时候这个研究GG了,因为Facebook改了他们的API权限,我们没办法再通过ID得到用户的完整数据(即使用户资料是完全公开的),虽然可以用爬虫,但是成本太高了。我觉得也许是Facebook发现了这些数据的价值,想要自己做研究,不想再无偿得分享数据了,毕竟这么多API回调也得占用不少资源,所以取消了API调用。==============================这次数据泄露有这么严重吗?==============================在我看来,现在很多这些答主或者公众号,基本上都不懂这次事件的完整缘由,打着耸人听闻的“5000万”用户在吸引眼球,为自己谋利。https://www.nytimes.com/2018/03/17/us/politics/cambridge-analytica-trump-campaign.html附上纽约时报比较全面的报道。就是我上面说的,下载App的只有27万人,后面的那5000万实际上和这事儿没多大关系。如果你有心,看了一些微信公众号或者其他答主的回答,你也许会问,这5000万人是怎么来的,全文都没有提到起因,怎么突然就蹦出来了。重点:实际上就是这27万人在使用App时同意的协议里也允许了研究者获得他们的好友列表。平均一个人200好友,这不5000万就出来了。可问题就是这5000万从没有接受过这些协议,所有研究者能获取的只是他们公开的资料。就相当于你设置了朋友圈对所有人可见,把你所有的生活状态暴露在空气中一样。所以对于这5000万用户来说:数据有限,得不到敏感数据(比如居住地等,通称为PII,可以定位到人的数据)没有做问卷,个人倾向数据不明(比如对于宗教和政治意见),需要二度挖掘。用户资料本就开放可见理论上来说,在那个时候只要会用Facebook的API,并且有API的使用权限,就可以把对应用户的公开资料都拷贝下。但是在这一步Facebook真的没做错什么。数据的获取有严格的规范,也必须要有研究资格才能调用API。Dr.Kogan(协助了CA的研究学者)也只能拿到27万同意隐私协议的用户敏感数据。这一步Dr.Kogan也没做错,CA也还没有拿到数据。关于Dr.Kogan这个人会在下面说道。后面有评论补充到了一些背景资料。有27万的用户同意共享了他们的PII数据,也就是可以通过这一组数据知道你是谁,可以定位到你的个人。在法律层面上来说企业是必须要保护这类PII数据的。但是目前法律层面上还没有对与5000万人的开放式数据的保护有明确的规定。==============================谁该为这次事件负责?==============================我觉得主要还是Dr.Kogan和CA。实际上就是Mr.Wylie有了一个非常好的想法和算法,想找人合作做研究,但是被剑桥的实验室拒绝了。然后他找到了Dr.Kogan一个在剑桥实验室的俄裔美国研究者。这个人开发了FacebookApp并且收集数据。到这里谁也没有错。但是,接着Dr.Kogan把数据共享给了CA,把本应该只能用于学术研究且不能分享的数据,分享给了一家商业运营的公司用作牟利。最后被Facebook发现在滥用数据,发了律师函要求删除,结果CA还摆了一道FB,私自留下了数据。==============================阴谋论==============================我看到了现在提出的几个主要的阴谋论。我也想说说我的看法,不一定对,如过你有更完整的想法,欢迎你留言。-------------------------------------------这波数据帮助分析了英国脱欧?-------------------------------------------目前的新闻来看,虽然母公司在英国,但是当时大部分研究工作还是在美国分公司进行,数据也多是是美国用户。主要还是想通过数据研究分析美国用户的政治观点。“TheywanttofightaculturewarinAmerica,”headded.“CambridgeAnalyticawassupposedtobethearsenalofweaponstofightthatculturewar.”并不觉得美国用户的政治意见和偏好会对英国脱欧有什么影响。-------------------------------------------这波数据帮助分析了2014年美国国会选举?-------------------------------------------根据卫报消息,这个App是由Dr.Kogan在2014年6月底上线,2014年国会选举在11月7日,中间只有5个月。首先要建立用户群,然后收集数据,然后分析数据,最后造势影响选举,从时间轴上来看,我觉得时间不太够。我比较奇怪的是扎克伯格的声明中说的CA是在2013年拿到的数据,2014年程序被下架。但是卫报和纽约时报的口径是应用是在2014年6月上架,在2015年中旬下架。如果以扎克伯格的公告为准,那应用是在2013年上线并且在2014年中旬平台改革的时候下线,那就有足够的时间整理数据,在一定程度上影响选举,但我个人觉得影响十分有限。因为中期选举涉及到的观点太过于分散,需要深入分析选区内选民近期内的诉求,要影响选举必须得定点对选区内的选民投放广告,我觉得难度不小。最有可能的影响了个位数的席位,不太可能是大面积的干预。(如果有更多关于这件事的报道和看法欢迎留言补充)-------------------------------------------这数据又帮助了Trump赢得了2016年大选?-------------------------------------------Trump在2015年6月17日宣布参加竞选。那么这时候,这波数据有了两个用处。但是我们首先的清楚一件事。实际上数据有两部分。第一部分是做过完整的问卷,并且可以由此进行心理侧写的27万用户的数据。第二部分是由27万引申出的5000万用户的公开社交记录。那么可能的用处我觉得有下面两种。用来分析选民公众对于Trump的看法,用以改进Trump的人设。用来分析选民的政治偏好,定点投放广告。先来说第一点,完成这一点需要所有5000万人的数据和历史记录,翻找和查询大众对于Trump的看法,从而改进Trump人设。这一点我觉得不现实,因为可以肯定的是在Trump宣布竞选之前Dr.K在Facebook上的App已经下架,那时候Trump还没进入公众视野,很难分析出群众对Trump的支持率和看法。来说第二点。我可以理解这个看法的初衷,就是在美国成年人大约有75%在当时通过Facebook看新闻。所以希望由此能够对特定人群推送“假新闻”。“比如对民粹分子,就推送特朗普保卫美国,赶走外国人,建墙等”,“对商业精英,就推送特朗普会减税,发展商业等新闻”,“然后再一遍抹黑希拉里”。这部分来自于“简易财经”的报道。上面一段话咋看起来好像很有道理。不过问题是,这个定点投放广告到底有多定点?因为实际上,不管是针对民粹还是针对精英,这两个方向的广告都在不停地推送,即使有偏向性,在大量的推送前,这样的差异化投放最后真正的产出到底有多少。在我看来,通过心理侧写确实能够判断出一个人是不是民粹分子,或者是不是商业精英。但随着广告投放量的增加,能够获得的边际关注度最后会越来越小。也许我表达的不好,毕竟政治不是我的专长,我只是在试图用理性的思维来分析这个观点的合理性。假设民粹分子A和商业精英B在他们看到第一条广告推送的时候。民粹A看到了关于Trump要收紧移民政策的新闻,民粹很开心表示要支持Trump。商业精英B看到了Trump关于要减税的新闻,表示能有更多可支配收入了,支持Trump。可是当这个步骤继续进行的时候,民粹A也一定会看到Trump减税的新闻,即使他不怎么在意。精英B同样会看到收紧移民政策的新闻,虽然他也不怎么在意。因为选民最关心的始终是设计自身利益的新闻,这点我也可以理解。也许投放了100条广告,民粹A看到了70条关于移民政策的新闻,商业精英看到了70条减税的新闻。可是我觉得这里面来回20条的差异并不会对巩固A和B的作用不会太大,他们一旦接触到了有利于自己利益的新闻,就已经产生了偏向性。如果新闻变成500条呢,这个差异化的收益也许更小了。所以这里的核心问题是,FB或者说可以通过FB实现对新闻的操作,实际上和希拉里在传统媒体上的新闻造势一样。只不过之前大家都以为社交媒体是一块净土,突然发现自己每天看的新闻实际上已经被筛选过了,所以产生的愤怒,我觉得就影响选票上,广告本身的作用远大于差异化广告的作用。-------------------------------------------最后有人说Facebook由始至终都知道数据泄露,并且帮助该公司分析民意?-------------------------------------------这一点Facebook就很无奈了啊Neartheendofthatyear,areportinTheGuardianrevealedthatCambridgeAnalyticawasusingprivateFacebookdataontheCruzcampaign,sendingFacebookscrambling.Inastatementatthetime,Facebookpromisedthatitwas“carefullyinvestigatingthissituation”andwouldrequireanycompanymisusingitsdatatodestroyit.Facebookverifiedtheleakand—withoutpubliclyacknowledgingit—soughttosecuretheinformation,effortsthatcontinuedasrecentlyasAugust2016.Thatmonth,lawyersforthesocialnetworkreachedouttoCambridgeAnalyticacontractors.“Thisdatawasobtainedandusedwithoutpermission,”saidaletterthatwasobtainedbytheTimes.“Itcannotbeusedlegitimatelyinthefutureandmustbedeletedimmediately.”Mr.Grewal,theFacebookdeputygeneralcounsel,saidinastatementthatbothDr.Koganand“SCLGroupandCambridgeAnalyticacertifiedtousthattheydestroyedthedatainquestion.”ButcopiesofthedatastillremainbeyondFacebook’scontrol.TheTimesviewedasetofrawdatafromtheprofilesCambridgeAnalyticaobtained.上面原引于NYTimes,cambridge-analytica-trump-campaign的文章这里面说啊,FB是知道数据泄露了,通过调查发现CA在滥用数据,要求他们立即删除并停止研究。CA也回复说,数据已经删除。结果谁知道FB被摆了一道,这CA还留了个备份继续用…………………………..=============================Facebook什么都没错吗=============================1.首先是研究资质的审核,Facebook确实会在提交试用API的时候审核研究者,但是在那之后就属于放任不管的状态了。所以Facebook应该加强后期跟进,定期再审核,不过这种事确实头疼也难办2.用户协议和App审核。Facebook早起为了快速建立生态圈和开发平台,同意并上线了一大波劣质App,App质量良莠不齐。现在的事件就是再还之前的帐。怎么处理在研究者首先现存的数据估计会让Facebook头疼一阵。同时用户协议混乱,很多时候用户并不知道同意协议意味着什么。使得很多没有资质的开发者研究者能够轻易获得用户敏感数据。3.再有就是公关。已经有不少针对这次事件Facebook公关能力的质疑了。现在看来扎克伯格还是选择硬钢而没有道歉=。=4.最后,这已经不是第一次Facebook被爆出参与政治选举。虽然我能够理解这么多用户数据放着不挖掘实在可惜,但是作为企业,特别是能够影响20亿人的社交媒体企业,最好还是保持对政治的中立吧。作为个人,扎克伯格当然可以有自己的政治偏向,不过我觉得不能因为个人的倾向而影响整个公司的走向。特别是这事情上了尼克斯的俄罗斯背景,加上班农和弗林一票Trump内阁跟CA的千丝万缕,给整个事情都蒙上了俄罗斯操作的阴影。=============================总结=============================在我看来,其实严格意义上来说Facebook不是数据泄露的源头,因为27万人同意了分享PII数据,另外的5000万人的数据也是完全公开透明的。最终问题出在了终端的研究者上,不应该分享出售本应该保密的数据。Facebook在这里需要承担的责任应该是在开放API之后继续跟踪数据流向,不过很难做到就是了,所以在2015年干脆取消了一系列的API,也算是一种补救吧。不过现实是,早期Facebook为了快速形成开发生态圈,所有有意无意得打着擦边球,没有承担起保护用户隐私的责任。所以现在得开始还旧账了。最后,这次泄露对于普通用户影响不大,没必要恐慌。一来没有涉及SSN,二来没有涉及信用卡和支付方式,三来数据都是2015年6月之前的。最后,很多媒体的2兆亿罚款会实现吗?我觉得难。因为就法律层面上来说,27万用户同意了研究者获取他们的PII用于研究,5000万用户的公开社交数据目前并不被法律保护。Facebook同意Dr.K的API使用权限也完全合规,最后的问题就落在了Dr.K把只能用于学术研究的数据分享给了CA,并且在Facebook发现滥用之后,CA谎称自己已经删除数据。最后的责任其实应该主要在Dr.K和CA身上。Facebook,我猜测法律上的责任和罚款很有限,主要是还是公众信任的流失,以及涉足选举的丑闻。=============================昨天扎克伯格是道歉了一波,不过与其说道歉不如说是正面回应了之前的疑问。https://www.facebook.com/zuck/posts/10104712037900071原文很长,直接跳过原文,我后面简单翻译一下。重点的几句话我会加粗。IwanttoshareanupdateontheCambridgeAnalyticasituation--includingthestepswe'vealreadytakenandournextstepstoaddressthisimportantissue.(插一句,其实这个起始句很关键,很多人说这是道歉信,但是你看看这开头第一段,说的只是分享一下现在的进度和以后的措施,也没说表示歉意。恩,没有歉意,重新来过!)Wehavearesponsibilitytoprotectyourdata,andifwecan'tthenwedon'tdeservetoserveyou.I'vebeenworkingtounderstandexactlywhathappenedandhowtomakesurethisdoesn'thappenagain.Thegoodnewsisthatthemostimportantactionstopreventthisfromhappeningagaintodaywehavealreadytakenyearsago.Butwealsomademistakes,there'smoretodo,andweneedtostepupanddoit.Here'satimelineoftheevents:In2007,welaunchedtheFacebookPlatformwiththevisionthatmoreappsshouldbesocial.Yourcalendarshouldbeabletoshowyourfriends'birthdays,yourmapsshouldshowwhereyourfriendslive,andyouraddressbookshouldshowtheirpictures.Todothis,weenabledpeopletologintoappsandsharewhotheirfriendswereandsomeinformationaboutthem.In2013,aCambridgeUniversityresearchernamedAleksandrKogancreatedapersonalityquizapp.Itwasinstalledbyaround300,000peoplewhosharedtheirdataaswellassomeoftheirfriends'data.GiventhewayourplatformworkedatthetimethismeantKoganwasabletoaccesstensofmillionsoftheirfriends'data.In2014,topreventabusiveapps,weannouncedthatwewerechangingtheentireplatformtodramaticallylimitthedataappscouldaccess.Mostimportantly,appslikeKogan'scouldnolongeraskfordataaboutaperson'sfriendsunlesstheirfriendshadalsoauthorizedtheapp.Wealsorequireddeveloperstogetapprovalfromusbeforetheycouldrequestanysensitivedatafrompeople.TheseactionswouldpreventanyapplikeKogan'sfrombeingabletoaccesssomuchdatatoday.In2015,welearnedfromjournalistsatTheGuardianthatKoganhadshareddatafromhisappwithCambridgeAnalytica.Itisagainstourpoliciesfordeveloperstosharedatawithoutpeople'sconsent,soweimmediatelybannedKogan'sappfromourplatform,anddemandedthatKoganandCambridgeAnalyticaformallycertifythattheyhaddeletedallimproperlyacquireddata.Theyprovidedthesecertifications.Lastweek,welearnedfromTheGuardian,TheNewYorkTimesandChannel4thatCambridgeAnalyticamaynothavedeletedthedataastheyhadcertified.Weimmediatelybannedthemfromusinganyofourservices.CambridgeAnalyticaclaimstheyhavealreadydeletedthedataandhasagreedtoaforensicauditbyafirmwehiredtoconfirmthis.We'realsoworkingwithregulatorsastheyinvestigatewhathappened.ThiswasabreachoftrustbetweenKogan,CambridgeAnalyticaandFacebook.ButitwasalsoabreachoftrustbetweenFacebookandthepeoplewhosharetheirdatawithusandexpectustoprotectit.Weneedtofixthat.Inthiscase,wealreadytookthemostimportantstepsafewyearsagoin2014topreventbadactorsfromaccessingpeople'sinformationinthisway.Butthere'smoreweneedtodoandI'lloutlinethosestepshere:First,wewillinvestigateallappsthathadaccesstolargeamountsofinformationbeforewechangedourplatformtodramaticallyreducedataaccessin2014,andwewillconductafullauditofanyappwithsuspiciousactivity.Wewillbananydeveloperfromourplatformthatdoesnotagreetoathoroughaudit.Andifwefinddevelopersthatmisusedpersonallyidentifiableinformation,wewillbanthemandtelleveryoneaffectedbythoseapps.ThatincludespeoplewhosedataKoganmisusedhereaswell.Second,wewillrestrictdevelopers'dataaccessevenfurthertopreventotherkindsofabuse.Forexample,wewillremovedevelopers'accesstoyourdataifyouhaven'tusedtheirappin3months.Wewillreducethedatayougiveanappwhenyousignin--toonlyyourname,profilephoto,andemailaddress.We'llrequiredeveloperstonotonlygetapprovalbutalsosignacontractinordertoaskanyoneforaccesstotheirpostsorotherprivatedata.Andwe'llhavemorechangestoshareinthenextfewdays.Third,wewanttomakesureyouunderstandwhichappsyou'veallowedtoaccessyourdata.Inthenextmonth,wewillshoweveryoneatoolatthetopofyourNewsFeedwiththeappsyou'veusedandaneasywaytorevokethoseapps'permissionstoyourdata.Wealreadyhaveatooltodothisinyourprivacysettings,andnowwewillputthistoolatthetopofyourNewsFeedtomakesureeveryoneseesit.Beyondthestepswehadalreadytakenin2014,Ibelievethesearethenextstepswemusttaketocontinuetosecureourplatform.IstartedFacebook,andattheendofthedayI'mresponsibleforwhathappensonourplatform.I'mseriousaboutdoingwhatittakestoprotectourcommunity.WhilethisspecificissueinvolvingCambridgeAnalyticashouldnolongerhappenwithnewappstoday,thatdoesn'tchangewhathappenedinthepast.Wewilllearnfromthisexperiencetosecureourplatformfurtherandmakeourcommunitysaferforeveryonegoingforward.Iwanttothankallofyouwhocontinuetobelieveinourmissionandworktobuildthiscommunitytogether.Iknowittakeslongertofixalltheseissuesthanwe'dlike,butIpromiseyouwe'llworkthroughthisandbuildabetterserviceoverthelongterm.从第三段开始,说了一下时间发生的时间线。我没逐字逐句的翻译,看了一遍然后按自己的理解翻译了一下,意思大体不变。2007年,facebook开放平台发布,为了给应用提供更多的社交能力。在日历上你应该能看到好友的生日,地图上应该能看到朋友的地址,电话簿里也应该能有他们的照片。所以,我们授权用户能够在其他应用里登陆他们的facebook账号,同时他们的好友信息也会一起分享给第三方应用。2013年,剑桥大学研究员,Dr.K开发了一个性格测试的应用,有27万用户安装并且分享了他们的数据,包括他们部分的好友数据。因为当时facebook平台的设定,Dr.K获取了这些用户数及其关联的3000万好友的数据。2014年,为了杜绝对数据的滥用,facebook修改了平台上API的使用规则,使得数据访问收到了更大的限制。所以今后类似于Dr.K的应用不再能够获取用户的好友数据,除非这些用户的好友们同样授权了这款应用。facebook也要求开发者们必须在获取我们的许可后才能向用户征求敏感信息。2015年,有记者表示Dr.K将应用获取的数据分享给了CA。这违背了我们的开发者规则(不得在没有用户同意的情况下分享数据)。接着facebook马上封禁了Dr.K的应用,并要求他和CA通过正规形式证明他们已经删除了全部不当获取的数据。然后CA回复已经删除。后面分了三个小点,阐述了今后如何避免类似的问题再发生。和我在上面小标题“Facebook什么都没错吗”里面提到的4点竟然完美的重合了~~~~~~~~~不敢相信=。=https://www.facebook.com/photo.php?fbid=10159947393555198&set=p.10159947393555198&type=3&theater概括起来,这其实就不是一个道歉信。全文也没有出现任何道歉含义的字眼。对比上面网友的修改版,就可以知道这个公开函其实在某种程度上也代表了facebook对这次事件的态度。=============================

上一篇:如何评价电影幕后玩家AorB
下一篇:如何评价201819赛季结束后的克里斯保罗