盘点：大数据挖掘带动的变迁

发布时间：2021-08-20 14:41:31 所属栏目：大数据来源：互联网

导读：副标题#e# 中国电子学会云计算专家委员会名誉主任委员、中国大数据专家委员会顾问、中国工程院院士李德毅在题为大数据挖掘的演讲中重点强调：PB时代是对科学的挑战，更是对包括数据挖掘在内的认知科学的挑战。大数据标志一个新时代的到来。这个时代的特征不

水不转，云在转。这是我报告的第二条。随着互联网贷款6个月翻一番的速度，它比9个月翻一番、18个月翻一番要快，你的带宽有能耐就多起点作用，于是人类进入了交互时代，交互带动着计算和存储。

水不转，人在转。移动互联网时代的大数据挖掘主要是网络化环境下的非结构化数据挖掘，这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据。

这种非结构化数据有什么特点呢？它常常是低价值、强噪声、异构、冗余冰冷的数据，有很多数据放在存储器里一辈子没再用过。数据的形式化约束越来越宽松，越来越接近互联网文化、窗口文化和社区文化，我们现在的青年人不要学什么东西，只要会玩手机，越玩越熟悉，因为他已经进入这个文化之中。

关注的对象也发生很大改变，挖掘关注的首先是小众，只有满足小众挖掘需求，才谈得上满足更多小众组成的大众的需求，因此一个重要思想，就是由下而上胜过由上而下的顶层设计，强调挖掘数据的真实性、及时性，要发现关联、发现异常、发现趋势，总之要发现价值，但是它未必注重因果、未必注重主次、未必注重时序，更未必发现普遍的知识。

移动互联网时代的大数据挖掘过程当中，数据的简约具有自适应性，不必具有固定特征或者层次。许多年来，我的课题组提出一个方法，叫认知物理化方法，对128×128的象素组成的人脸，如果他们的数据场是等价的话，我们可以用28个特征点数据来等价这个流媒体数据。对另外一张人脸，它可以变成254个数据、59个数据，这是非常不同于结构化、半结构化的。

当前，深度学习也是一种数据自适应简约，百度人工智能建设院的吴教授他们就开展了这方面的研究，如果我们在百度上用深度学习搜索一个人脸象素搜索，这么多人脸谁是谁？是他吗？数据量急剧增加，各种媒体形态可随意碎片化，组织结构和挖掘程序要围着数据转，程序要碎片化，并可以随时虚拟重组，挖掘常常是人机交互环境下不同社区的发现以及社区中形成的群体智能，在非结构化数据挖掘中，会自然进行数据清洗和逐步强形式化，自然形成半结构化数据和结构化数据，以提高数据使用效率。

因此我们用网络化的大数据挖掘方法，首先要是在这个复杂的人人都连网的情况之下找到一个特定问题的社区，因此由社区发现成为大数据发展的首要问题，要研究社区成员，就必须要研究他们之间的相连关系，要研究他们的交互形态，显现的形态有评论、心情、收藏、购买、评分、顶踩、分享、转载、加为好友、邀请等等，这些统计数据都成为我们挖掘的基础。隐形形态有跳转、浏览、翻页、收听、观看、聊天、点击、取消、会话中断、黑名单等等。

交互的特点可以从频繁性、增量性、主动性、广泛性、多样性、持久性去研究社区成员的连接强度。我们利用拓扑势方法挖掘社区，我们还要发现在一个社区中，谁是一个领头羊，谁是第二个领头羊，成员的角色和重要性，成员之间的关系等等。

在现实生活中，人类的某个概念，或者世界的认知经过一段时间的反复交互、汇聚、修正、演化，群体形成趋于相对稳定的共识。合作编辑下的维基条目，社会化标注等都是这种过程中的生动再现。

（编辑：PHP编程网 - 金华站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页

云迁移之后企业凭什么	成功进行数据转移的策
怎样避免淹没在云原生	智能交通大数据科技在