工程师如何针对海量原始数据进行比对、清洗?
来源:鹿科技综合 发表于2020-04-27 18:16:01 编辑:时小峰
摘要: 原标题:工程师如何针对海量原始数据进行比对、清洗? 上海大数据中心的技术人员在获取海量原始数据之后,首先会将所有原始数据投入数据湖之中,再
  原标题:工程师如何针对海量原始数据进行比对、清洗?
 
  上海大数据中心的技术人员在获取海量原始数据之后,首先会将所有原始数据投入“数据湖”之中,再针对湖内的数据设定特定的规则,通过规则进行匹配,最后得出想要的结果数据。
 
  数据湖,可以理解成一个存储各种各样原始数据的大型仓库,又称为原始数据保存区,技术人员就相当于仓库管理员,负责存取、处理、分析及传输数据。数据湖的包容性非常强,能存储各种结构及规模的数据。做到轻松地收集和摄入数据的同时,它还可以支持不同类型的大数据工具对其中的数据进行处理,极大地方便技术人员进行后期分析和利用。所以在处理“随申码”的数据之前,大数据中心的工程师第一步就要将从各渠道所得的原始数据统一存储入数据湖内,再针对湖内的数据进行比对、清洗工作。
  大数据中心数据资源部部长储昭武介绍称:“我们现在的数据来源比较多,各个字段的准确度是不一样的。那为了获取准确的人的数据,那我们要对人口库内的数据,以及随申办用户注册时(填写)的数据,包括姓名字段、身份证字段、联系电话字段进行计算,找出可信的数据。然后合成一条准确的人的基本信息,这就是通过比对能得到我想要的人的基本信息。
 
  而在清洗这一块,举个最简单的例子,“健康登记”这一块数据,由于在道口比较匆忙,登记的数据都是五花八门的。有身份证号不对的,有联系方式不准确的,甚至是找不到联系地址的。那我们要把这些“脏数据”挑出来,我们的工程师是要通过一定的规则进行编程,让系统对逐条数据进行计算,把这些有问题的数据给剔除,得到干净的数据,这就是清洗的过程。”
 
  从随申码的大数据逻辑来看,健康码的基础,首先是“网络实名制”,即理论上我们每一个人在网站和手机软件上注册的所有账号,都是实名即对应一个真实的人员。
 
  其次,是市民行为的数据化。比如说你的手机导航、通讯使用、进出各省市道口的航空、高铁信息等。这些行为也是构成每个人行动轨迹的重要参考来源。
投稿邮箱:lukejiwang@163.com
相关推荐
Huawei Pay 非接触式支付系统在莫斯科地铁上线应用

原标题:Huawei Pay 非接触式支付系统在莫斯科地铁上线应用 他说:现在,乘客可

科技谈2020-09-19 13:32:18

旷视发布深度学习框架天元 1.0 预览版

原标题:旷视发布深度学习框架天元 1.0 预览版 在中关村论坛上,旷视发布了深

科技谈2020-09-19 11:07:13

黄仁勋:将保持 Arm 开放许可模式和客户中立性

原标题:黄仁勋:将保持 Arm 开放许可模式和客户中立性 在以 400 亿美元价格完

科技谈2020-09-15 17:51:19

不只是芯片代工 外媒称台积电三星还将在芯片封装领域

原标题:不只是芯片代工 外媒称台积电三星还将在芯片封装领域展开激烈竞争

科技谈2020-09-15 17:46:50

Facebook 将欧洲用户数据传给美政府,或面临欧盟国家

原标题:Facebook 将欧洲用户数据传给美政府,或面临欧盟国家 28 亿美元罚款 美

科技谈2020-09-11 19:46:54

华为:超 20 家汽车厂商支持 HiCar 2021 年拟预装超 500 万

原标题:华为:超 20 家汽车厂商支持 HiCar 2021 年拟预装超 500 万台 余承东透露

科技谈2020-09-10 21:32:28

腾讯 AR 导航正式亮相,相关量产车型将于年内上市
腾讯 AR 导航正式亮相,相关量产车型将于年内上市

原标题:腾讯 AR 导航正式亮相,相关量产车型将于年内上市 在腾讯全球数字生

科技谈2020-09-10 21:28:18

王晓初:共建共享为联通和电信节省5G建设投资超600亿

原标题:王晓初:共建共享为联通和电信节省5G建设投资超600亿元 9月9日,中国

科技谈2020-09-09 19:19:42

Firefox 试图减少对 Google 的依赖

原标题:Firefox 试图减少对 Google 的依赖 Firefox 高级副总裁 Dave Camp 表示,Firef

科技谈2020-09-08 20:56:19

规划年内生产 7500 万部,苹果将于 9 月开始生产 5G 版

原标题:规划年内生产 7500 万部,苹果将于 9 月开始生产 5G 版 iPone 9 月 8 日,

科技谈2020-09-08 20:51:37