AI基础设施革命?关于数据隐私保护和价值挖掘的实践思考

编者按:本文来自数牍科技创始人宋一民(Ethan),数牍科技基于数据科学与工程、密码学(多方安全计算、差分隐私 etc.)、联邦学习等技术体系,帮助企业间进行安全隐私的数据协作。Ethan在成立数牍科技之前,曾就职于 Facebook Ads,作为tech leader主导了Facebook Ads 与多个五百强公司的基于隐私保护的数据协作项目,后又任职于数据隐私组主导了多个数据隐私安全的工作。

宋一民认为,数据隐私的保护贯穿数据流通过程,是一种动态的数据安全;数据隐私保护与价值挖掘并不矛盾,数据隐私保护的落地长久来看会推动新的数据使用范式诞生,而规范数据使用可以促进数据流通更顺畅,在汇聚更多数据的基础上迎来价值挖掘的下一个爆发点,带动AI的基础设施革命。但隐私计算行业目前仍处于早期阶段,因此在这里分享了他对数据使用的思考,以及平衡隐私保护和价值挖掘常见的技术实践。

以下是分享内容的简要提纲:

数据流动的合理性和必然性

流动链条中的数据归类

数据隐私和价值挖掘的平衡:给予数据拥有方控制力

数据拥有者的控制力如何赋予?

数据控制力管理的技术实践

数据的流动性

一个数据从生成开始的整个生命周期中,可能会在多个机构或节点间流转,在节点间进行流转的过程使得数据形成了一个网络,就像许多企业内部存在数据流动的data pipeline,在更宏观的层面也存在类似的data flow。

在客观现实中,数据流动存在它的合理性和必然性。一方面,对于任何一个个体,他的数据会在不同的场景中产生和被采集。比如使用打车软件会产生位置移动的信息,住酒店会产生住宿信息,在淘宝买东西会产生购物信息等,很难想象会有一个实体掌握关于这个个体的全部数据;另一方面,挖掘数据的过程也存在专业性的问题,在不同场景中根据不同需求,挖掘可能很难完全由同一个实体来完成。因此往往为了充分的挖掘数据价值,需要尽可能的将多个数据产生的源头,经过多个节点进行汇聚,加工处理和使用。

从产业的角度来看,我们常形容互联网和AI的关系是“连接产生数据,数据产生智能”,在连接和智能决策的过程,其实也是数据流动汇集、价值挖掘的过程。更丰富的数据维度和更好的数据覆盖对于模型的质量也是至关重要的。数据作为AI的原料,其流动性也是让AI更好发挥价值的基石。

流动中的数据

数据的流动性具有合理性和必要性,而流动过程中的数据在实践中通常是被如何被归类和定位的?

数据在经过不同节点的过程中,会在不同的上下文环境中被提及:比如数据的收集,存储,使用,以及对应的前述行为的转让。收集主要对应原始数据的采集或者形成结构化数据的过程,比如将用户操作 App 的动作形成日志传回服务器端,或者比如将用户产生的评论进行汇总。存储和使用一般都是按字面意思对数据进行保存或者处理。为了进行数据的聚合或者借助外来力量对数据进行挖掘,可能会涉及将这些数据的存储或者使用权转让给其它方的过程。另外考虑到这些和个人数据相关的不同上下文,普通用户在签数据授权的时候也可以额外关注一下授权协议是否清晰的定义了这些不同的范畴,比如某 App 本身,对什么数据、进行不超过多长时间的存储,并且这个存储权不会转让给除某 App 本身的其它实体。

价值挖掘 V.S. 隐私保护 — 数据拥有者的控制力

数据自由流动中的价值挖掘能让AI更好地发挥价值,但同时,数据流动过程中不经节制的应用,也会带来数据隐私侵犯的隐患。最近多个金融大数据公司遭到立案调查,从数据源的角度来看,其中一个重要原因就是该类公司的爬虫对触达的数据未经授权进行存储或超出了约定的使用范围。举例来说,如果有一个 App 声称帮助用户进行多个金融账户进行管理并综合呈现个人现金流等信息,为了帮助 App 呈现这些信息,用户就需要提供这些金融账户的访问权限。但如果在这个过程中 App 对个人银行账户内的所有信息都进行了抓取和存储,并将这些信息提炼出来的标签出售给第三方或利用标签开展新的业务。由于这些过程未对用户进行告知并获得许可,都是一种对数据使用权的滥用。

从当下的工程实践来看,解决挖掘和隐私的两难,可能目前最好的解决方法是给数据拥有方一个控制力,包括对数据收集的授权和收集后保存和使用的控制。国际上普遍进行的实践或者规范(如GDPR)都倾向于对个人拥有的数据及其数据的各种上下文环境进行准确的授权。比如GDPR中就会要求第一方数据要明确“自己采集到了哪些数据”,当用户有了这个明目之后,应当有权来选择“保留哪些删除哪些”;在此基础之上,还比如会要求对数据处理方法作出明确问询和授权,“比如通过采集到的用户点赞的帖子的内容和类型来学习用户的兴趣爱好”;这些兴趣爱好作为标签,虽然不是原始数据,仍然需要用户进行逐一的明确授权。

当我们通过给予数据拥有方控制力的方式去平衡数据价值挖掘和隐私保护,在实践中又会出现一个新的挑战 — 如何在不侵犯个人隐私的前提下,获得个人的授权。举个例子,比如在获得兴趣爱好标签授权的时候不太可能有用户可以预先对近乎无限多的兴趣爱好进行一一授权,一般的过程也是首先由数据挖掘方获得了某个标签,再针对这个标签进行问询。我们在过去的工作实践中见过的最好的处理方法是首先对多达三到六百万常用的兴趣爱好做知识图,将这些兴趣爱好的包含关系或者关联性整理出来;之后再对各类兴趣爱好通过找到包含关系中处于包含当前爱好的比较泛化的那类爱好进行问询这样点到为止的方式来完成。即便做到这样,虽然消耗了巨大的资源并且有很高的门槛,也很难说做到了完美,因此也就不难理解多数公司在应对GDPR或者相关合规的问题上面临着巨大的挑战这个事实。

数据拥有者的控制力如何赋予?

除第一方数据以外,在授权第二方的过程中,可能大体会分为两种情况:第一种授权的目的可能是协助数据挖掘,第二种授权的目的可能是协助数据变现。在第一种情况下一般会只授权使用,不授权再次转让,并且对存储进行严格的控制(控制在使用所需的存储范围内)。比如说,对消费行为进行建模的第二方数据,往往会存在过去两周和过去两个月这样两种时点,超过两个月的消费行为一般价值也微乎其微。那么在授权存储的时候一般会限定存储时间不能超过2个月(外加一个比如24小时的灰色周期)。在数据使用的授权上,一般如果对数据挖掘的目标及使用场景进行严格的限定,一方面可以保护授权方在竞争法层面的权益,另一方面也可以间接保护数据拥有方的个人隐私。从保护个人隐私的角度来讲,假设授权的目的是计算某些用户的还款风险从而帮助授权方决定是否放贷的场景,如果不限定挖掘的目的只能限于该合作方之间的征信目的,则可能会被第二方使用同样的数据用于与其它合作方的营销场景中作为对于个人现金流的判断的一个因素。对于第二种(数据变现)的情况,会有比如通过特定的场景或产品进行变现以及通过售卖标签进行变现不同的类型。这里不对各种数据变现的方式进行展开,但想强调一点的是在变现的过程中需要关注的是原始数据在第二方或其它地方的沉淀情况。因为虽然一般授权方会通过限制原始数据的转让(从而保护个人隐私),但仍然会允许加工过的数据进行流通或通过某个场景达成目标。无论是哪种方式输出的结果,都难以完全地避免数据的信息被沉淀,大量的沉淀会间接的导致原始数据被转让。举一个数据泛化中沉淀结果的极端例子来说,假设我们允许对某一个人的常见活动区域输出某个较大的半径圆范围,多个这样的半径圆就可以逐步缩小对这个人活动区域的判定。

公开数据和前述的最大区别是,由于已经公开,只要是获得了数据拥有者对于公开的授权,那么之后不会再对公开数据的采集者进行一一授权。采集者获取公开数据的途径一般也都是通过爬虫这样的主动收集的形式,具有一定的收集和清理/整理成本。这里面一个有意思的地方在于,有一些数据并不是严格意义上的被公开数据,或者说只希望在某个特定范围内被公开。举例来说社区的运营者可能只希望社区的用户生成内容(UGC)在社区内进行公开,而不希望流传到互联网上。典型的这类意愿的表述形式有类似于Robots exclusion standard,主要用于向爬虫声明网站中哪些内容不能被读取。除此之外公开数据还有可能仅仅是可以被读取而不能希望被存储的,举例来说比如社交网站中的朋友清单。朋友清单被存储和对比之后就可以得到诸如”哪些朋友取消了对我的关注“这样的信息,这里面也存在可能侵害了别人的个人隐私的问题。一般为了防范这样的越界爬取行为,公司可能会有针对性的组织自己的反扒窃(anti-scraping)系统,在协议范畴之外对数据的控制力赋予提供保障。

综上所述我们可以看到,赋予数据的控制力长久以来都面临许多挑战。且除了第一方数据外,沿着数据链条向下走,这种挑战会逐渐增加。这种现象很大程度上源于数据作为一种抽象存在,不同于普通物品的可以被复制,而被复制的数据的控制力将会被重新的定义和赋予。因此在数据流通的过程中将数据的各种属性分开管理和授权,尽量减少数据复制的出现,可以很大程度上降低在整个链条上管理控制力的成本。需要研究的不是如何把数据的链条切段,而是如何在链条的各个环节上更好的完成数据控制力的精细化管理。

新的产业机会 — 数据流通链条中控制力管理的技术实践

前面提到,解决数据流通链条中赋予数据控制力的问题,主要的方式是针对不同类型的数据采取不同的方式,从宏观上减少数据使用就要复制的情况出现。那么,在具体实践里,针对个人数据的隐私保护,又有哪些宏观分类要素与技术手段呢?

可以看出,对PII的控制是数据链条中形成控制的关键,没有PII的两个数据集是很难整合在一起使用的。 针对PII的控制一般被称为De-identification,目前主要有比如脱敏(Data Masking),匿名(Anonymization)和k-匿名(k-anonymization)由弱到强三种比较常见的方式。

匿名指修改或者移除个人身份信息,隐藏数据和个人的对应关系。一般的数据源会自己生成并管理这种对应关系,由于个人身份信息的完全隐藏,安全性也会远高于直接对原始PII进行脱敏。同时的对于使用PII来关联数据集的这一属性,也可以靠修改内部的对应关系来组织使用匿名数据在外部进行数据集关联的操作。

用户特征值数据主要在价值挖掘中被体现,使用的方法宏观上可以分为使用原始数据和使用统计数据两类。比如某人在某时某地进行了某次购物可以被认为是原始数据,那么某人在过去的一天里进行了3次购物可以被认为是统计数据。在很多情况下避免原始数据的直接使用是不太影响价值挖掘的同时可以更好的保护原始数据的。类似的,在链条中传递用户特征数据时所使用的控制方法也比较多,常见的就有泛化(比如给定一个范围而不是具体的数值),统计(如前所述),加密(比如同态加密),差分隐私(比如给定的数值是原始数值的基础上增加一个噪音),合成(比如将原始数据转化为代表所需知识的模型或者由模型生成不同于原始数据的新数据)等等。

涉及多方数据的安全运算环境的方式可以从多种角度来划分。比如从是否存在可信的第三方(或者对于该第三方的信任成本有多大)来谈,使用比如GC或者OT来实现的MPC可以实现完全没有可信第三方的环境,而基于某些同态加密设计或者可信硬件的环境一般是强依赖于对于第三方的可信度的,而可信硬件环境还存在信任硬件产品供应方这一个额外的信任成本。除了上述的两类(MPC和可信硬件)之外,也存在许多其它方式在联合运算中保护原始数据的方法,其中就有比如合成数据(比如通过将原始数据转换为模型),比如差分隐私(巧妙的选择在原始数据上面增加噪声从而在保护原始数据敏感性的前提下不会过多的干涉运算本身),还有比如传统的泛化(只传输包含原始数据的一个范围)等多种方式。在实际应用之中,一般会考虑数据的泄露危害程度(比如PII数据的泄露会造成连锁的数据泄露反应),数据是否容易被沉淀(比如高时效性的数据相对不那么容易被沉淀)等在达到安全级别的前提下,尽可能的保持信息完整性(合成,差分和泛化都会在不同程度上损失原始信息)的同时提升整体系统的运行效率。

在介绍工程实践的技术类型的同时,我们也希望澄清在实践中遇到的两个比较常见的认知误区: 数据隐私解决方案,不等同于单一的密码学或技术点创新,是一个结合了数据科学、密码学、联邦学习、云计算的综合工程,通常是技术组合的形式;其次,对于数据隐私比较受关注的MPC(多方安全计算),最近几年,MPC在数学原理上并没有特别大的根本性变化,更多是工程方面的突破与进展

数据的流动性具有其必然性和合理性,也是AI在产业中更好发挥智能的基础,但数据价值挖掘带来便利的同时,也面临着隐私侵犯的隐患。从当下实践来看,通过给予数据拥有方控制力的方式是平衡数据价值挖掘和隐私保护最有效的方式;而流动中的数据链条复杂,通常需要在数据流通的过程中将数据的各种属性分开管理和授权,尽量减少数据复制的出现,从而降低在整个链条上管理控制力的成本。数据流动过程中的隐私保护,是动态的、过程中的数据安全与隐私,对应的技术实践也将带来新的产业和创新机会。

(完)

本文图片来自:pexels返回搜狐,查看更多

责任编辑: