Who Knows You Better

2019.06.09

刚刚看完《黑镜》第五季第五季第二集,关于一个大型社交媒体公司: Smithereens(碎片) 讲的是伦敦一个拼车司机绑架了社交媒体互联网公司的一个员工,引发了一场国际危机。
为什么单独拎出来这一集,是因为这个这一集对于事件的演绎太贴近自己接触到的现实情况了,尤其一些关于技术与社会的演绎非常的深刻。

account analyticsz

群体与个体数据

个体数据

这一集有一个地方印象非常深刻,是警方和碎片的 COO 去了解 Chris 背景信息维度的差异。

警方想要了解的信息有 Chris 有没有犯罪前科、之前的工作是什么、亲人以及居住情况。但是碎片公司了解到事件之后,直接在后台的用户分析界面看到 Chris 的数据:包括历史的工作、给他打的用户标签(高智商低收入)、登录行为、使用的关键词的云图、平台的活跃情况,同时了解到司机之前的接单历史(并且确认司机是冒用身份),判断出是有目的地绑架公司员工,基于历史帖子之前的事故以及主人公的心理状态。

互联网公司记录用户数据已经成为行业惯例,但是对于用户数据的使用大部分人其实有很多误解。有些维度过度揣测,还有一些维度未曾考虑到。

政府对于民众的监控之前主要是监控“离散的关键节点”,比如房产登记、犯罪记录、贷款历史这种。连续的信息对于政府是比较难去记录的,比如心理状态、情感状态、思维方式的改变。而大家长时间的在手机上面的操作行为,却能很好地反应这种线性的变化。

值得庆幸的是,目前互联网公司对于个体的数据分析(挖掘)程度还是比较低,比较深入的应用只不过是精准营销,用户标签体系。针对个人的分析性的项目的应用场景还是比较窄。但是,随着头部应用和公司的增量放缓,精细化的数据分析是必然趋势,长期来看有必要对于相关数据权利进行探讨。

群体数据

之前实习的时候在做 A/B Test 时候,看到有人感慨自己所掌握的试验资源,觉得不认真分析就是浪费。在亿级别的用户里面做 AB ,只用 10% 的流量就是千万级别,这是在学校里面几乎获取不到的样本量。在设计好实验条件的情况下,结果的置信度也要高很多,也更加精准。

目前互联网公司对于用户的分析还是主要和和浅层次的产品需求挂钩的,比如用户点击行为和 UI 样式的关系。在这种程度的分析情境下,其实对于个人的隐私入侵可以忽略不计,但是如果代入另一个场景:

  • 每天早上家里的设备都是由智能助理辅助操作的,比如 Google Home 在你醒来时自动开灯,开窗···
  • 你的出行行为与地图和汽车的定位数据绑定
  • 你想要吃什么在点评类 APP 详细记录
  • 应酬等邀约通过日历工具记录

在这种场景下,即基于群体性的结果针对个体进行应用的情况,更容易针对性地对一个人分析。因为应用群体性结果的前提条件就是个人的分析数据的结果,类似的各个维度的分析结果可以详细地拼凑出完整的用户画像,针对性地对用户行为进行预测也容易得多。

以上这些基本上都已经成为现实,可以说如果能够将这些数据打通,你的会“行为数据”比你更懂你。 从好的维度来看:

  • 你新到一个城市,你的语音助手自动给你推荐当地美食,根据你的消费水平预订酒店。
  • 在朋友生日自动帮你给朋友邮寄对方喜欢的礼物,你只需给助手回复一下“确认”。

同样,也可能会有下面情况:

  • 有一天你在答辩的时候,有人针对你 10 年前的一条微博提出不符合价值观的质疑。
  • 你的个人手机号在某个网页上被搜索引擎收录,同时被爬虫记录并归档到对应的人群进行广告推荐。
  • 社交媒体通过内容推荐机制,影响公众的舆论走向以及政治倾向。

我们很难去要求商业公司依照道德准则去使用用户数据,我们更多的应该从立法以及行业规范来约束个人数据的使用以及分析。类似智能家居,智能手机能接触到的敏感数据的量是难以想象的,但是大部分公司因为业务相关性的原因没有去深入挖掘这些数据的应用场景,也没有意识去防范这部分数据被滥用。一旦从某种渠道让别有用心的人获取,类似数据将带来的风险性是巨大的。

Tech Makes Who you are

每个人与外界的关系是相互的,自己在改变外界的情况的情况下,也被外界改变。剑桥事件还仅仅是通过广告来尝试影响政治选举,毕竟有明确的 AD Load 摆在那,他们能够操控的信息流只是一少部分。更让人担心的是类似在美国大选期间,Google 等公司通过修改搜索引擎关键词提示来影响人们的主观判断,为希拉里拉票。最近几年其实互联网公司或多或少都意识到了自己影响整体舆论走向的能力,比如饭否事件,#MeToo 运动,这些事件的传播都在造就当下大家宏观的价值体系。

很庆幸的是目前头部的互联网 or 社交媒体公司有比较“正确”的价值观,但是这就像让一个 5 岁的孩子拿着控制核武器的按钮。在没有恶意的情况下大部分情况都是安全的,但是很难确保长期的无害。比如有不可控因素影响这些公司,如通过强制性的法律 or 行业规范介入公司的在线业务?或者某些恶意公司通过收购获取其他公司的业务?

God Mode

这个是在看到一篇台湾的文档觉得合适“拿”过来的标题,当你有全域的数据访问权限的时候,那种感觉有点像你在 GTA 里面输入了一段 cheat codes。只不过现实中你是输入的一串 SQL,你就能查到某个用户的所有数据,比如出行记录,酒店预订记录,打车记录等等。曾经“有幸”在签了足够的保密条款后,获得过类似的权限,很难忘记第一次查询数据的时候惊讶于事无巨细的用户行为记录。

尤其是在在线广告将跨平台的数据打通之后,用户 ID 在不同 APP 和公司之间可以直接转换,连带的用户数据也一并被打通。倘若完全地进行数据共享,对应用户的画像可以精细到难以置信的地步。

科技排毒

说实话这是一个很魔幻的但又是现实的场景,比如2018年7月初,Marc Benioff (Salesforce CEO) 将他的 iPhone 和 iPad 装入FedEx 信封并邮寄到夏威夷的避暑别墅。他随后乘坐飞机离开旧金山,在加拉帕戈斯群岛,波拉波拉岛和复活节岛度过了一个安静的两周假期。并且1月达沃斯世界经济论坛期间,公开职责 Facebook,称其与烟草一样令人上瘾。

有一种说法是在存量用户到头的时候,大家竞争的是用户的使用时间。在这个既定目标之下,不同的应用必然会变得更加上瘾,高度集中的刺激性内容会极大地提升用户的 “High 点”,从而对其他事物降低兴趣,潜在地影响用户群体的正常生活。在通过在线广告的盈利模式下面,这种闭环连接地会更加紧密,比如在信息流产品里面,AD load 一定的情况下,用户使用时间越长,浏览的内容越多,浏览的广告也就越多,互联网公司的经济收益也越多。从某种角度,这也是一种“免费的是最贵的”的体现。

Right to be forgotten

Right to be forgotten 是一种在欧盟内部存在的人权概念。简而言之,即人们有权利要求移除有关于自己的负面信息或过时的个人身份资讯搜寻结果;但因为产生了与言论自由间的冲突,与可能产生互联网审查的疑虑,因此引发了争议,且法律框架仍不明确,当前只有在欧盟实行。

因隐私权问题而从 Google 搜索结果中移除网址: https://transparencyreport.google.com/eu-privacy/overview

其中受影响最大的网站列表(up to 2019.06.09):

域名已移除的网址数要求移除的网址总数
www.facebook.com21,41851,658
annuaire.118712.fr16,83621,657
twitter.com14,24632,238
www.youtube.com12,34732,984
profileengine.com11,56513,637
groups.google.com9,19619,873
plus.google.com8,87835,621
scontent.cdninstagram.com8,24313,982
www.wherevent.com6,1817,189
badoo.com6,01211,009
评论