“数据池”里的捕鱼者

2015年10月23日 13:43   来源:贵阳网   

  当你连上D-GuiYang的时候,网线那一头的服务器里,会存储你各种各样的网络习惯。在WiFi数据收集员和分析师口中,它被称作“数据池”。他们的其中一项工作,就是在这个池子里“捞鱼”。

  数据从哪来?

  手机一连上WiFi,数据就已经开始产生了,首先向着数据池出发的是手机的品牌型号、系统版本以及硬件的MAC地址。随后,你上网的地点也被记录,接着你上网的时长、偏好、购物习惯也会变成数据。

  这些数据从市内各处奔来,被引入数据池不同的区域储存后,会被随机切割成无数碎块,借助专用的工具才能恢复原样。

  这个系统也并非无所不能,它更偏重形式而不是内容,例如它能精确地知道你聊了几分几秒的微信,但你在微信上和谁说、说了什么它却全不知晓。

  它收集的这些习惯,将在数据池中,拼凑出一个虚拟的“你”。不必知道你的姓名长相,却对你的喜好了如指掌。当这样的“你”越来越多,系统也就掌握了越来越多的规律。

  数据长啥样?

  701项目(贵阳全域公共免费WiFi城市项目)的运营方透露,贵阳全城WiFi开通的前三个月,平均每天有近7万人次访问,流入数据池里的总流量相当于3万6千部高清电影的总和。

  对于樊琦俊这样的分析师来说,看这个池子如同一片汪洋大海。就像你在电脑里打开一个文件夹,里面又有无数个文件夹,每个文件夹里又存放着数不清的文件,既不能读取,也无法打开。当你不知道自己想要什么的时候,这里的海量数据等于没有数据。

  而随着WiFi覆盖范围的增加,池子里的“水”将会越来越多,数据收集员一方面要把数据池里的废物掏出来,给新数据腾空间,另一方面还要不断把池子挖深挖大,防止里面的“水”满出来。

  数据怎么捞?

  构建这么大的数据池,就是为了能让数据分析师去“捞鱼”,也就是从池子中找到并组合出有价值的信息。

  大数据软件就是“渔具”,根据不同的情况,合理使用鱼网、鱼钩或者鱼叉,才能捕到不同的“鱼”。

  例如打捞大量细小繁琐的数据,就要把渔网调密一些,好捕齐“虾米”,如果需要的数据不需要太精细,鱼网可以松一些。

  如果只针对特定的个别数据,鱼钩又会派上用场。如果捞到“病鱼”,也就是残缺不完整的数据,数据分析师要么丢掉,要么手工给它打上标签、补足数据,让它和其他数据产生关联。

  如果捞到带有敏感信息的数据,数据分析师则会将其“放生”,保证数据信息安全。

  数据到哪去?

  樊琦俊需要的数据分析师,并不需要对计算机有多专业,反而更依仗他在行业上的丰富经验,这样才能发现数据之间的内在联系,也能把这些数据卖个好价钱。

  例如,银行的信贷部门,就有可能对企业的电表感兴趣,因为用电量稳定的企业,至少业务运转得正常,而电费陡增,也能从一个侧面说明企业业务量增大,而一个从来不拖欠电费的用户,一定程度上也是一个信用良好的人。

  数据分析师可以根据顾客的需求,订单式地打捞相应的数据,为顾客提供咨询服务,也可以把这些有价值的数据送到贵阳大数据交易所,就像捞出来的鱼放到超市去售卖一样,吸引有兴趣的顾客购买。其中产生的效益,就能为全城WiFi供血,保障这个免费的项目顺利运行。 ■本报特别报道小组

(责任编辑:杨淼)

精彩图片