开放引擎平台 百度欲推“革命”(图)
汇聚用户数据 平台能否善用?
百度正式宣布推出“大数据引擎”,平台如何善用 百度能否掌控?(网络图片)
【看中国2014年04月29日讯】随着目前IT业的“大数据”理念对各行业带来的冲击越来越广,如何保护私人数据的安全也越来越被普通用户所关注。
在4月24日第四届技术开放日上,百度正式宣布推出“大数据引擎”(该引擎包括开放云、数据工厂、百度大脑三层核心平台),将打造一个开放平台,采取邀请制和免费模式,吸引通信、金融、物流、制造、农业等行业拥有海量数据却不知如何处理的传统企业进驻,为这些公司提供存储、关联、分析大数据的能力。
据悉,百度“大数据引擎”的开放是渐进式的,目前主要与政府、非政府组织、制造、医疗、金融、零售和教育等传统领域率先展开合作。百度CEO李彦宏表示:未来会有更多行业被卷入,而且被卷入的速度越来越快,是一个加速发展的过程,将产生一场新的工业革命。
换句话说,百度在为这些行业免费提供存储、关联、分析等大数据处理能力的同时,也获取了丰厚的回报---即获取了这些行业的所有数据,其中包括许多普通用户的私人数据。通过运营这些数据内容,百度可以打造多个商业模式进行高额盈利,例如互联网广告等等。
汇聚用户数据 平台安全堪忧
据悉,国家交通运输管理部已表示,将把应用迁移至百度开放云平台;中国疾病高预防控制中心也将结合疾控大数据和百度大数据,建成中国首个流感预测系统。与此同时,普通用户乘坐飞机、火车等交通工具的出行数据,以及用户自己的健康数据,也都将被集中到百度的平台上。
以此类推,后续一旦通信、金融、交通、医疗、教育、制造、物流等政府机构部门都入驻百度平台,那么除了上述的交通数据和健康数据以外,各政府部门掌握的普通用户个人的银行数据、医疗数据、教育信息、消费信息、通讯录等各种隐私信息,也都会被集中到百度平台上。百度的“大数据引擎”将为各政府部门提供存储、关联、分析等一系列大数据处理能力。
据悉,“大数据引擎”包括开放云、数据工厂、百度大脑三层核心平台,其中最核心的平台是百度大脑。借用图灵奖获得者 N.Wirth(沃斯)提出的“程序 = 数据结构 +算法”的理论,那么如果说百度“大数据引擎”是一个程序,它的数据结构就是“开放云”+“数据工厂”,而算法则对应到“百度大脑”。百度大脑将把百度在深度学习和大规模机器学习的能力,开放给这些入驻百度平台的政府部门。百度大脑能自动识别语音、图像、文本,并理解自然语言和语义,目前已经可以模拟到两三岁婴儿的智力水平。
一旦这些政府部门入驻百度平台,从一方面看,这些政府部门可以获取百度“大数据引擎”的能力,这将极大的提高工作效率,并会取得一些突破性的进展,如建成中国首个流感预测系统等。
但从另一方面看,如此之多的用户数据一旦都集中到百度平台上,将有可能带来另外的致命风险。4月8日刚刚发生的OpenSSL的安全漏洞Heartbleed(心脏在流血)殃及全球,只要使用了https协议的网站几乎无一幸免,至今让人仍心有余悸。国内受影响的公司更是不计其数,如微信、淘宝、支付宝、QQ平台、网银等等,百度的服务器也在其中。在这次危机中许多用户的信用卡信息被泄露,但网站却无法知道是谁窃取了用户信息,也无法追究追究法律责任。
此外,除了技术原因导致用户数据泄露外,百度作为一个非政府部门的第三方互联网公司,是否有权利跨过用户的许可,通过政府部门入驻其平台的方式,直接获取如此之多的用户私人数据?以及在其运用“大数据引擎”关联、分析这些用户数据后,是否能不滥用、不公开其获得的分析结果(包括对北京政府也不公开其分析结果)?对这些问题李彦宏在4月24日的技术开放日上都没有做出说明,而这一点正是普通用户和媒体关注的核心。
百度腾讯联手 用户再无隐私?
在百度推出“大数据引擎”平台之前,普通用户的数据是被分散存储在通信、金融、交通、医疗、教育等各部门的数据库中,如果因为某个目的去查询、关联或分析单个用户的数据,会涉及到授权和不同数据库访问等问题,难度很大;一旦各部门入驻百度平台,用户数据也都会被集中同步到百度的数据库中,以获取百度“大数据引擎”的处理分析能力,这样可以迅速汇集该用户所有的重要信息,以及未来他(她)可能要做的事情。
例如,某用户目前的个人档案信息存放在人才交流中心,健康信息存放在医院,金融信息存放在银行,学历信息存放在教育部,亲属关系信息存放在公安局或派出所,出行信息存放在交通运输管理部,联系人信息存放在移动通讯公司,等等;一旦这些部门都入驻百度平台,这些个人信息都会被同步存放到百度的数据库。然后百度的“大数据引擎”可以对这些数据进行关联和分析,一旦这个用户成为查询的目标------不管是“防御疫情”还是“新闻审查”,都能迅速的定位该用户的所有信息。
按照李彦宏的构想,在免费吸引上述政府及传统行业部门入驻百度平台之后,下一步将吸引更多的其他大型行业公司入驻百度平台,例如另一互联网巨头腾讯公司。可以想象,如果拥有7亿微信用户(5亿国内用户)的腾讯和百度联手,百度的“大数据引擎”将可能知道这7亿用户几乎所有的秘密。
而这个结果对个人用户来说,不论是国内用户还是国外用户,都将无法接受,因为这将会侵犯用户的隐私权利。Google公司力推的新品Google眼镜,从推出到现在始终招到质疑,而且目前被多家咖啡馆、餐厅禁止使用,原因就是该产品携带的拍照、摄像、录音等功能,能迅速记录他人隐私信息。Facebook新推出的广告系统“Facebook AudienceNetwork”,能利用facebook平台上存放的用户数据,帮助广告商对用户的环境定向投放广告,尽管深受广告商的好评,但也因为未经用户许可而使用了用户数据遭到用户和媒体的公开指责。
平台如何善用 百度能否掌控?
因此,对于百度开放“大数据引擎”平台,并吸引了大量政府部门入驻,后续如何使用这个平台将成为关键。从一方面看,对于用户个人的隐私信息,民众都希望尽可能防止泄露,以避免不必要的损失和伤害。另一方面,对于关系到大众利益、国计民生的重大社会事件,民众则希望能第一时间了解真相。这些都将考验百度是否能善用这个平台,是否能把民众的利益放在第一位。
有分析人士认为,百度作为一个互联网公司,如果能够汇集大多数政府部门的数据到其平台上,并利用“大数据引擎”为各个部门提供统一的存储、关联、分析服务,在目前大陆严格把控互联网信息的环境下,将是极其罕见的。
例如,4月17日,网络红人秦志晖(网名"秦火火")因在网上转发了几条不实的信息,被以寻衅滋事罪判处有期徒刑3年。
然而反过来看,即使在新闻信息宽松的美国,也没有一个互联网公司能把通信、金融、交通、医疗、教育、制造、物流等政府部门或机构的数据汇集到一个平台。然而百度在开放“大数据引擎”平台后,立刻就有国家交通运输管理部和中国疾病高预防控制中心宣布进驻。这场百度新推的“工业革命”后续会如何发展,媒体将持续关注。