北极星

搜索历史清空

  • 水处理
您的位置:电力输配电电力通信评论正文

用密码学技术解决数据滥用问题 这家公司想建起国家级数据电网

2020-07-06 08:55来源:大数据文摘作者:魏子敏关键词:数据安全能源行业数据电网收藏点赞

投稿

我要投稿

2018年3月19日,星期一,Facebook股价暴跌7%,一天内市值蒸发近400亿美元。

这是Facebook举世瞩目的“剑桥分析数据泄露丑闻”发酵的开始。就在此前两天,特朗普聘用的一家政治AI公司剑桥分析(Cambridge Analytica)被曝非法将大约5千万Facebook用户信息用于大数据分析,从而精准刻画这些Facebook用户的心理特征,并向他们推送定制广告,甚至假新闻。

这些用户信息由剑桥大学心理学系讲师Aleksandr Kogan通过App “thisisyourdigitallife”以学术研究为目的向Facebook收集,但数据却被转移至第三方,即剑桥分析公司。

丑闻直接导致Facebook成为了“数据泄露”的代名词,也让所有人都意识到了明文数据的显著特征:数据一旦被“看见”即可被复制,复制成本极低,并且无法限制用途和用量。

所有数据拥有方都担心成为另一个Facebook。要想让数据安全地流通起来,两个重要的问题迫在眉睫:如何防止数据在使用过程中的信息泄露;如何限制数据的具体使用方式,防止数据被滥用?

数据正成为数字经济时代的核心生产要素

要完全防止数据被泄露和滥用,最稳妥的解决方式当然是把数据锁在自己“家”里。没有流通,也就不存在滥用。

但是,在当前的数字经济时代,这显然是个不可能被接受的答案。数据正成为最重要的生产要素,并且在经济生活中发挥着愈加重要的作用。

2004年,全球数据总量是30EB,2005年达到了50EB,到2015年,居然达到了惊人的7900EB,2020年预计达到35000EB。这个规律被称为新摩尔定律,即:人类有史以来的数据总量,每过18个月就会翻一番。或者说,我们整个人类文明所产生的全部数据中有90%是过去两年出现的。

从金融、广告、支付到能源、工业和医疗,数据正在渗透到人类生活的方方面面。毋庸置疑,数据是数字经济时代的核心生产要素,也是现代社会和经济的核心资产。

“互联网经济时代,数据是新的生产要素。”

2017年,习近平正式提出,将数据作为新时代的生产要素。十九届四中全会正式把数据定为了和土地等其他资产一样的生产要素,也和其他生产要素一样,依据“由市场评价贡献、按贡献决定报酬“的机制进行定价。生产要素的价格是它参加社会化大生产的分配依据。

一般来说,经典经济学理论认为价格的确定是基于市场供需,没有经过流通交易,只靠算法算出来的数据价格,是没有经过市场检验和认可的。

但是,要真正由市场供需来给数据定价,可没有那么容易。

数据成为关键生产要素的两个必要前提条件:「可用不可见」和「规定用途和用量」

数据作为生产要素有着自己的显著特点。

首先,相对于原始数据的生产成本,数据的复制成本极低,甚至可以被忽略;

其次,数据可以被无限地重复使用,物理上不会因为被使用而耗损或灭失;同时,数据可以被多方同时使用;

最后,使用数据的过程中还通常会产生新的数据,因此数据是取之不尽用之不竭的,只会越用越多。

这也决定了明文数据作为生产要素的局限性:一旦被看见,就会泄露具体信息,即可被复制,复制成本极低且可以被无限地复制;一旦被泄露和复制,就无法限制其用途和用量,很难厘清“责、权、利”。

这也是为什么目前很多珍贵且待开发的数据,比如医疗数据、金融数据、政务数据等一直无法被分享共享开发,主要考虑也都是担心数据信息泄露,尤其是因为无法控制数据的具体用途,而担心数据被滥用。

以上特点使得明文数据很难通过市场供需进行定价,并形成大规模的市场交易流通,也就很难成为生产要素的主体。

一方面数据必须成为生产要素,另一方面,明文数据的流通存在很多障碍。数据要真正实现生产要素化并大规模参与社会和经济活动,必须先满足“可用不可见“和”规定用途用量“这两大必要前提条件。

这两个前提的必要性是由数据的“二象性”决定的:数据既包含“可见”的具体信息,也包含“不可见”的计算价值。

具体来说,数据的一大价值在于其可以展示,或者说可以被看见的具体信息,类似量子力学中的“粒子”;另一大价值在于数据不通过展示而可用于计算的计算价值,我们可以把它类比为量子力学中的“波”。

首先,实现数据的“可用不可见”:数据大规模流通的前提是把数据承载的具体信息和它的计算价值区分开,做到数据“可用不可见”,避免因为“被看见”而造成的无限供应和无限使用;

其次,规定数据用途用量:规定数据计算价值的具体用途和用量,只有这样才能形成对数据特定使用权的定性定量以及有限供应和需求,并厘清数据使用的“责、权、利”。

当这两个前提同时被满足的时候,原始的数据还是在数据原持有人手中,只是把数据计算价值的规定使用方法(算法)和使用次数授权给了使用方。这时候,真正流通的不是数据本身,而是数据的特定使用权。只有通过这种方式,才能让数据真正成为生产要素,在市场上进行大规模流通和交易。

满足这两个前提听起来都非常困难,如何解决它们,咱们一个一个来。

40年前的密码学难题,让数据“可用不可见”

事实上,早在约四十年前,第一道难题“可用不可见”就从理论上被解决了。解决它的人是一位密码学专家,也是迄今为止唯一的图灵奖华人得主姚期智。

理解这个解答之前,让我们先试着思考这样一个问题。

两个百万富翁在街头相遇,他们都想知道谁更富有,但是出于隐私保护,又不想让对方知道自己具体有多少钱。在不借助可信第三方的情况下,如何完成这次比试呢?

在密码学领域,这个问题可以被描述为,“一组互不信任的参与方之间在保护隐私信息以及没有可信第三方的前提下的协同计算问题”。

上个世纪八十年代,姚期智院士提出和解决了这个经典的「百万富翁」问题。随后他又用数学理论证明了,凡是可以在明文数据上进行的计算,理论上都可以在密文数据上直接进行计算,并得出与明文计算完全一致的结果。也正是在这个基础上,「多方安全计算(Multiparty Computation, MPC)」这门现代密码学的重要分支正式诞生。

9358d109b3de9c8218ea3049944a6a0c1bd843b8.jpeg

图:姚期智提出「多方安全计算(Multiparty Computation, MPC)」的论文

MPC技术就是为了解决传统的密码学难题:让数据在不泄露的情况下,联合多方数据进行协同计算,并得到准确的计算结果。

当前主流的数据计算方式是基于明文的,虽然数据从传输到保存都是在加密状态下,但在芯片中进行计算的时候,是需要先解密再计算,计算结果也是明文的。也就是说在计算的时候数据仍然是明文,因此在计算的过程中,依然存在泄漏的可能,在理论和实践上都是不安全的。

传统数据加密和多方安全计算最大的区别在于,传统数据加密是只解决了数据传输和储存的安全问题;它的基本信任假设是信任数据的使用方,不信任中间的存储环节和通讯媒介。

但是实际上,阻碍数据流通的,或者说最容易出现数据滥用的环节往往是数据的使用方。

所以从理论上讲,在每次数据流通发生前数据所有方都必须确认:使用方的硬件是不是ok,软件有没有可能被攻破,操作的人员是不是可靠?更重要的是,使用方是不是本身就是恶意的?

而多方安全计算解决的问题就是,从技术上让数据使用方无法“看见“和滥用数据。数据在输入芯片进行计算的时候,不需要解密,直接在数据密文上进行计算,得出的计算结果也是密文的。这就有效解决了计算过程中的数据安全问题。多方安全计算的安全假设是不信任硬件、不信任软件、不信任人。

在解决可用不可见问题后,怎么规定数据的“用途和用量”呢?

刚刚我们提到,数据无法成为生产要素的另一大限制,就是双向形成了无限供应和无限需求,数据一旦被看见就是无限供应;同时一旦明文数据被需求方拿到,也就可以被无限制使用,在无限供应和无限需求的世界里,根本无法进行定价。

不仅无法定价,因为没有明确限制数据使用范围就交出数据,也酿成了不少悲剧事件。文章开头提到的2018年Facebook的数据泄露丑闻事件就是因为没有技术手段来限制数据使用方的使用用途(算法)。

因此,规定数据的用途和用量对于数据流通来说至关重要。也就是说,让每一次提供的数据,只能用来做规定的计算。

清华大学的徐葳教授,一个姚期智院士亲自从谷歌“挖”回清华的青年研究者,几年前就开始探索如何解决这一难题。

“这是困扰整个大数据圈的问题,我看到的时候就立刻想到了密码学和姚老师,也立刻跟姚老师讨论了“,徐葳告诉我们,“这其实是密码学在理论上已经解决的问题,通过多方安全计算,避免泄露数据明文本身,就可以规定用途和用量了。”

明文数据有无限的测信道,而如果转换成在密文上进行计算,就可以规定相关计算因子的用途和用量了;多方安全计算几乎是为解决这一难题量身定制的。

数据在输入芯片进行计算的时候,是密文状态,计算后得出的结果也是密文的。也就是说,这个时候参与计算的已经不再是数据了,而是本身不承载任何信息的密码碎片。徐葳将这种状态的数据称为“计算因子” 。计算因子本身不承载任何信息,一用一密 -- 具有“图灵完备”的计算价值,同时,其计算价值本身没有受到任何损害。

打一个形象的比喻,加密数据一般被认为是加了密钥可以被解开,就像洋葱,扒开外衣可以得到;但是多方安全计算下的数据被捣成“洋葱泥”,一用一密,用了就没了,这就从根本上解决了数据的泄露和滥用问题。

通过MPC技术,数据流通的两个难题“可用不可见”和“规定用途用量”的实现都被解决了。

但是,天下没有免费的午餐。多方安全计算对算力的耗费是明文的百万倍级。从理论到工程实现,有一条很长的路要走。

多方安全计算的工程化,“百万富翁”设想走进现实

经过了三十多年,计算机理论和技术有了飞速的发展,正如姚期智先生所说,“计算机终于足够快,能够把这三十年大家不断改进的(MPC技术)方案开始运作起来”。

目前多方安全计算已经具有了初步实用性,应用手段也不断取得突破。

去年接受《人民日报》采访时姚期智先生曾表示,当年提出这个概念的时候,完全出于自己科学的好奇心。但现在,多方安全计算已经在政务数据共享、金融科技、人工智能、医药保健等领域的数据共享方面开始发挥重要作用。

在华控清交信息科技(北京)有限公司(下称“华控清交”),一群人正在致力将这个技术工程化。这家公司由清华大学于2018 年6月发起成立,成立不到两年时已完成两轮融资,投资方包括港交所、联想集团和高榕资本,上轮估值十数亿元。

能获得如此高的估值和众多投资方的青睐,华控清交有什么秘密武器?

首先,基于多方安全计算理论,华控清交的隐私保护计算技术基于经严格数学证明的密码学理论,运用密码学理论在计算机指令集和编译器层面用密文运算替代了明文运算,建了密文运算体系,并极大地优化了计算性能。

10dfa9ec8a1363278d4cada569444aea0afac7d2.jpeg

同时,刚刚我们提到,多方安全计算对算力的耗费是明文的百万倍级。在过去的两年多,华控清交做的就是,把基于密文的计算的算力耗费从初始的6个数量级(百万倍),通过持续的工程和算法研发和优化,降低到了目前的1-2个数量级(十到百倍)。

可以说,将姚期智先生多年前的理论落地,初步实现了工程化。

事实上,“工程化”这个题目并不比理论问题更容易。

采访中,华控清交的联合创始人徐葳告诉我们,要实现大规模使用扩展,首先在系统和硬件上,需要将多方安全计算的算力耗费控制在可以接受的范围;其次需要对接现有的大数据领域的基础设施;然后从易用性方面考虑,需要让系统更容易编程,让用户通过Python和SQL语言都能够便利地自行开发应用;此外,还需要配备必要的配套算法库,让不懂基础算法和密码学的多数用户能够直接调用基于密文的计算函数和分析工具。

华控清交以多方安全计算为核心技术或者说连接性技术,通过与其他基于明文的隐私保护计算方法相结合,使多方数据在信息相互保密前提下实现高效数据融合共享与综合挖掘利用。

据介绍,华控清交的计算平台可以在多方输入且不暴露输入信息的情况下进行密文协同计算,最终得出与明文一致的密文计算结果,并且实现了支持涵盖AI训练算法在内几乎全部的计算类型和多种数据格式。

e61190ef76c6a7efdd6b0b0704314557f2de6690.jpeg

目前,华控清交已经自主开发并推出了一系列基于多方安全计算的技术和标准,为打破数据壁垒和连接数据孤岛奠定了技术基础,也为数据确权和大规模数据流通创造了条件,具体项目已经在政府领域数据互通共享、金融行业隐私保护查询和多方联合风控建模,能源行业效率优化等场景落地。

"建立国家级的数据电网"

当前社会的数字化转型轰轰烈烈,挖掘更高维度的数据价值以及数据上云迫在眉睫。然而,数据流通所需要的基础设施建设还很不完善。

359b033b5bb5c9ea4b1521382df25c0638f3b35d.jpeg

图:华控清交描绘的社会化数据价值闭环示意图

出于对数据归属、数据安全和隐私保护的顾虑,导致数据价值链不同环节之间区隔和障碍重重,专业化分工协作十分脆弱,很难形成有效闭环。这也是当前的数据价值链闭环通常只能在同一个公司、平台或组织中形成的关键原因。

华控清交希望,应用多方安全计算技术可以打消数据价值链的不同环节对数据归属、数据安全和隐私保护的顾虑,真正打通数据价值链,强化大数据和人工智能的专业化分工协作,最终形成广泛的社会化价值链闭环。

以多方安全计算为基础的隐私保护计算技术的工程化和产业化,无疑为数据流通融合、打破数据壁垒、连接数据孤岛创造了条件,为数据生产要素化奠定了技术基础。

姚期智曾经表示,“MPC将是中国贡献给世界的一个原创关键技术。”而华控清交毋庸置疑,希望成为这个技术落地的载体。

通过密码学层面的安全协议,注重数据输入、计算和输出全过程的保密性和计算结果准确性,华控清交的产品在技术上能够规定数据的具体用途和用量(“合约计算”),在工程上还实现了密文和明文混合计算以及动态数据(数据流)密文计算。目前,华控清交在这个领域正走在世界的最前列,已经现实了数据“可用不可见”和 “规定数据用途用量”这两大数据科学难题,并且正在不断地在工程上完善、优化和提升,使它更加高效、通用和易用。

b3fb43166d224f4a89cae8c6f13c7a549a22d1e3.jpeg

图:华控清交对未来数据共享融合与交易流通所需的基础设施的构想:政府、机构、企业、民间、个人等多个层次;MPC、FL、TC、DP、DM 等多种隐私计算技术和区块链的结合;是基于合约的隐私计算技术、算力和通讯带宽的结合体,是国家数据要素交易流通的基础设实施。

在最近的一次内部演讲中,华控清交CEO张旭东如此向全体员工描绘这家公司的使命:为数据生产要素化提供框架、工具和平台,使数据可以安全流通共享从而真正成为生产要素。

“如果把数据看作是一种能量,那么我们正在做的是开始建立国家级的数据电网。”


原标题:用密码学技术解决数据滥用问题,这家公司想建起国家级数据电网
投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。

数据安全查看更多>能源行业查看更多>数据电网查看更多>