数据时代,数据比人类更了解人类,而影响我们人类的,是信息,传播中的信息影响着我们对事物的认知和决策。大量的传播数据通过重新聚类关联,再经过一些分析方法,就可以得出很多未知或者已知而过去无法验证的结果。

2008年Google推出一款预测流感的产品,他们认为,某些搜索词有助于了解流感的情况,而这些搜索数据可以近乎实地的对流感情况做预测。

而这样的产品,正式应用了关键词之间的传播关联关系。其实除了搜索词,同样在网络中传播的信息也一样可以通过信息颗粒化,做更多的研判预测以及洞察到更多未知信息,最近就因为好奇,整理了一些科技网站上的新闻信息,通过技术切词和我们的研判模型做了个小实验。

实验要解决的问题是,究竟哪家公司更能成为人工智能的公司。在数据分析结果出来之前,以及我浅薄的互联网认知,我觉得Google未来会是一家人工智能的公司。然而结果却出乎我的意料,甚至是预料大相径庭,我们就一起来看下这个实验的过程吧。

【数据治理方法】

我们将整理的所有新闻信息中含有人工智能相关词的信息标注出“人工智能”标签,同时将每条信息中包含的科技公司名词提取出来。当然这中间要涉及外文词汇的翻译和整理,同时提取与专利相关的信息,做另一个结论分析用。最后几组数据交叉比对。可以得出很多结果。

【分析过程及结果】

1,提出问题,在众多的科技公司中,谁会成为人工智能的公司?将所有信息中含有人工智能标签的数据做提取并统计。

2,得出上述问题的结论需要两个条件,新闻报道中含有人工智能及这家公司。当然人工智能判定词与主体的距离也要计算,以便确保数据的精准。

3,开始数据可视化,我们将统计的数据结果,按照信息量做排序。则所有含有人工智能标签的信息中,人工智能判定词与主体词(科技公司主体)同时出现的数据做排序。

4,得出结果:我们按照这两组数据同时出现的信息量做主体量的排序。得出结论如下:

下表中,与含有人工智能同频出现最多的科技公司有:华为、微软、腾讯、苹果、小米、特斯拉、谷歌……这个结果跟我起初预判的结果还是相差很远。(图1)


【可以延伸的问题】

用同样的方法,我们又跑出与专利相关的信息数据排行,这个数据可以表明,谁是拥有专利最多,或者更在意专利的科技公司。如图所示,在专利相关信息中,最多的是院校合作信息,另外就是芯片(这里可以更深度的分析芯片与专利之间的细化数据,此处不做赘述)

而同时提及的科技主体有:苹果、华为、特斯拉、微软、腾讯、阿里、京东、小米、谷歌……

同理,所有提及机器人的信息中,则微软、华为、特斯拉、苹果、小米、腾讯、京东的信息数据会更多。

图片

以上是我们的实验室团队平时做的一些好玩的小课题,今天偶尔跟同行交流突然提起,就想把研究方法跟大家分享一下,希望致力于此的同行朋友可以有所启发。所有数据样本均为近一年来的新闻报道数据。数据总量大概几十万条。覆盖海内外科技媒体30多家。鉴于数据样本本身不够全面,以及数据颗粒细化算法的粗糙,本文中的结论数据仅供参考。而且时间的选取,数据的选取可能结果的偏差都比较大,比如如果我们仅仅使用近期的数据话,可能马斯克的机器人数据会更多。我们主要是想将研究方法与大家共享,为未来科技信息做深度洞察提供一些参考。