AI大潮下的数据搜集和利用 如何断定隐私侵犯与合理利用?

  导读:日前,《华尔街日报》的一篇华为和腾讯正因用户数据,产生冲突的文章在业内流传,并经国内部分媒体的发酵(夸张的翻译及再加工),演绎出了诸多不同的版本。但有一点可以确认的是,此前工信部所属的国内权威的泰尔实验室已经检测确认荣耀Magic并不存在侵犯用户数据隐私,而诸多第三方的测试也显示,荣耀Magic也不存在侵犯用户数据隐私。我们这里需要强调的是,为了更好提升用户的体验和提供更多、更好的服务,用户数据的搜集、利用与侵犯用户数据隐私完全是两个不同的概念。



  其实通过此次《华尔街日报》的报道,我们更关心的是AI时代下,相关企业到底该不该搜集和利用用户的数据信息以及为何要搜集和利用用户的数据信息。


  熟悉AI的业内人士知道,在当下,如果把AI看成一个嗷嗷待哺、拥有无限潜力的婴儿,某一领域专业海量的深度数据就是喂养这个天才的“奶粉”。奶粉的数量决定了婴儿是否能长大,而“奶粉”的质量则决定了婴儿后续的智力发育水平。正是基于此,在进入AI时代,数据搜集及基于数据的分析已经是业内大佬的共识。


  众所周知,亚马逊的大数据分析系统在电商行业独领风骚,其会追踪用户在电商网站和APP上的一切行为,尽可能多地收集数据。只要看一下亚马逊的“账户”部分,就会发现其强大的账户管理,这也是为收集用户数据服务的。主页上有不同的部分,例如“愿望清单”、“为你推荐”、“浏览历史”、“与你浏览过的相关商品”、“购买此商品的用户也买了”,亚马逊保持对用户行为的追踪,为用户提供卓越的个性化购物体验。而作为亚马逊最大对手的沃尔玛,其也通过店内的Wi-Fi搜集了将近1.45亿美国客户(相当于美国成年人的60%)的详尽数据,包括他们购买的物品、住的地方,以及喜欢的产品等。与此同时,其还通过分析用户在Walmart.com的点击行为,消费者在店内和线上购买的物品以及推特上的趋势,判断当地的活动和天气变化将如何影响用户的购买模式等。根据大数据分析出的结果,沃尔玛可以灵活调控仓库中的货物存储,动态调整价格,以短信和直邮的形式对用户进行精准营销,同时实现自身销售利润的最大化。



  再如传统IT企业的IBM,其知名AI系统沃森,从2015 年 4 月进入医疗领域至今,为了让沃森商业化,IBM先后花了40 多亿收购其他公司,而并购的目的是这些公司拥有大量的医疗数据资源,比如记帐记录,患者病史,X 射线和 M.R.I 图片等。与沃森类似,谷歌著名的AI系统DeepMind目前也已经进入医疗行业。去年11月,公司获得了首个付费项目,与NHS公立医院皇家自由伦敦医院(Royal Free London)签下五年的合同,为其处理170万份病历。此外,DeepMind还获得了访问其它伦敦医院两个数据库的权限,即DeepMind利用AI软件分析了约100万份视网膜扫描报告成功找到了退行性眼疾的早期征兆,或通过头颈部癌症图像让AI软件学会区分健康和癌组织之间的不同。


  从上述沃森、DeepMind的商业化看,均需要首先获取现实世界的大数据,即使拥有大量数据的可供挖掘的谷歌,运用AI及机器学习技术改进医院、电网及工厂等系统时,获取其详细的数据也非常重要。



  最后是目前业内热炒和效仿的亚马逊智能音箱Echo和其对手Google Home,在某种意义上,购买 Echo 或 Google Home 表示消费者已经接受了购买互联网设备的事实:通过内建的麦克风,这些设备的工作方式就是 24 小时不停地监听周遭环境,以便及时对用户的呼叫做出反应;同时相应公司会收集用户数据进行分析以不断提高自己的服务质量。


  由上述我们不难看到,无论是传统企业还是全球的科技大佬,在AI时代来临之际,都在千方百计获得用户的数据或者信息(搜集和利用用户的信息是充分发挥AI不可或缺的重要一环,否则AI将成为无水之源,无本之木),更好地服务于用户。


  当然,我们在此并非否认数据安全和用户数据隐私的重要,只是不能因噎废食,即为了所谓安全和隐私而忽视,甚至放弃获取数据,而是如何在获取数据的同时,利用协议、技术等手段告知和保证用户的数据和隐私安全,尽量做到获取和利用数据与安全的平衡。而提到平衡,我们不得不提及苹果。


  业内知道,苹果在AI 领域的研究进程要晚于竞争对手,根本原因就是他们不想像谷歌和Facebook 那样“侵犯”用户的个人数据。为此,苹果拥有大型的隐私保护项目。该项目使用了在学术领域被称为差分隐私的概念,并且将这个概念用在了iPhone 上的AI 程序上。差分隐私的工作方式是在好数据中插入噪音或是坏数据,一次来混淆那些试图侵犯个人隐私的人。例如,为了让苹果的软件将所有含有狗的照片放在同一个相册里,它需要收集大量狗的图片。苹果会收集这些图片,但是在收集之前,他们会对数据进行加密,然而将这些数据和其他一些无关的数据放在一起,这样一来,如果有人试图恢复原始数据,他们也无法得知哪些数据来自哪些用户。这个技术被认为是最好的隐私保护技术,其防护程度要高于现有的其他数据保护方式。


  对此,业内分析认为,苹果在隐私保护方面的尝试,尽管可能会拖慢他们的产品开发速度,但是这样的牺牲却能够获得用户的信任。苹果正在使用一些非常艰深的技术来保护用户的隐私,这使得谷歌和Facebook 将会在未来某一天感到压力,因为苹果提供了能和他们的产品匹敌的产品,而且更安全。


  与苹果类似,荣耀在信息获取层面,不仅严格遵循必须通过用户授权的原则,即Magic Live系统以及APP在获取或者使用用户的个人数据:日历、短信、电话、通讯录、提醒事项、照片和位置等之前,都必须要得到用户的许可。其次,在数据处理层面,遵循信息本地化处理原则。就地分析,不上传云端,也不对第三方开放。此外,在这两个原则之上,其还设置了两层防护,即在荣耀Magic搭载的海思麒麟芯片内部,设有TEE安全区,用户敏感数据基于芯片进行加密。秘钥的保存和加解密过程都是在芯片内部完成的,Android侧无法接触到秘钥和加解密过程。Magic Live还增加了防root及入侵检测功能。一旦发现Android系统异常,例如异常获取用户数据的行为等,Magic Live会拒绝执行用户隐私数据的解密功能,确保安全。


  综上所述,我们认为,此次《华尔街日报》报道的华为与腾讯因用户数据之争,从一个侧面反映出数据搜集和利用对于AI和用户的重要价值,同时也提醒业内,保护用户数据和信息隐私的重要性,且不能因噎废食,即过分强调一方,忽视,甚至放弃另一方,对于AI的发展及其给用户带来的价值都是弊大于利。


精彩推荐