从零开始学大数据04 阿里美团这些大厂都在用什么大数据架构?
发布时间:2022-10-25 10:21:30 所属栏目:大数据 来源:
导读: 在前面的部分,我们从思想和理念上大致了解了大数据的整体情况。从这一讲开始,我们就深入到实际的产品研发工作中,看一下大数据体系中涉及的各种工具和方法,以及它们在生产工作中都扮演着什么样的角色。
|
在前面的部分,我们从思想和理念上大致了解了大数据的整体情况。从这一讲开始,我们就深入到实际的产品研发工作中,看一下大数据体系中涉及的各种工具和方法,以及它们在生产工作中都扮演着什么样的角色。 这一讲呢,我们先从几个案例出发,看一下在当前的互联网大厂中实践的大数据体系是什么样子的,当然,这其中涉及很多的专业名词、缩写以及英文名称,可能让你摸不着头脑,不要怕,在后续的课程中这些都会被讲解到。 我们先来看一组来自滴滴出行的数据: 截止到 2019 年 7 月,滴滴注册用户已超过 5.5 亿,年运送乘客达 100 亿人次,每日处理数据 4875+TB,日定位数超过 150 亿,每日路径规划请求超过 400 亿次。 那这样庞大的数据量,背后是由一个怎样的大数据体系作为支撑呢?如下是在全球软件开发大会上讲解的滴滴大数据研发平台。 就滴滴公布的大数据发展历程来看。 阿里云的大数据体系 飞天大数据平台和 AI 平台支撑了阿里巴巴所有的应用,是阿里巴巴 10 年大平台建设最佳实践的结晶,是阿里大数据生产的基石。下图是飞天大数据的产品架构: 这是美团早些年公开的大数据体系架构: 在图上我们可以看到。 当然,美团的大数据体系不是一蹴而就的,也是随着时间的推移不断迭代和演进的: 大数据体系的共同点 一口气看了这么多互联网大厂的大数据体系解决方案: 它们属于不同的公司,作用于不同的业务,当然会有很多的不同点,但是不难看出,在大数据体系的发展过程中,也存在着很多相同的部分。 (1)模块化 大数据体系涉及了关于数据的一系列动作。随着大数据体系建设的逐渐完善,各个步骤变得更加清晰可分,不管是存储、调度、计算都被拆分成单独的模块,从而可以支持更多的业务,并根据需要进行灵活的选用。 (2)平台化 实施大数据的公司往往都有各种各样的业务,早期的大数据一定是围绕着各个业务去单独建设的,但是随着时间的流逝,各个业务之间的大数据体系存在着各种各样的差异,这就使得业务之间的数据互动成了一个难以跨越的鸿沟,建设一个把各业务的相似点统一起来,又能够包容各业务的差别的平台,让这些数据发挥出更大的价值成了一个迫在眉睫的需求。 (3)实时化 实时化一直是互联网公司不懈追求的。在大数据体系的演进中也充分体现了这一点。 (4 )不完善 根据最近几年的工作经验,虽然大数据体系在不断地发展和变化,各种新技术不断地应用,但是大数据体系还远没有达到一个完善的水平,其中仍然存在着各种各样的问题。我们的数据在不停地生产,规模不断扩大,虽然说各种硬件的性能在提升,价格在下降,但是这仍然是公司非常巨大的一笔开支;同时,在大数据的治理方面还很欠缺,随着数据的不断增长,数据的共享和合理利用效率在不断地下降,同时在数据安全方面也存在着很大的隐患。所以,关于大数据架构的迭代还远没有结束,在未来肯定还会有更多更好的解决方案推陈出新,解决旧问题,满足新需求。 总结 在这一讲中,我们介绍了三个公司的大数据体系架构,从这几个案例中不难看出,目前的大数据体系基本上都包含了数据存储、数据传输、数据计算、机器学习平台以及数据的最终应用等部分,同时结合各自的业务形成了一些各自的特色。当然,不是说每一个公司都需要一个完整的大数据体系,由于它并没有十分完善并且开销巨大阿里云大数据,我觉得每一个公司都应该考虑投入产出的效率,根据自己的需求和能力去逐步地建设。 在案例后面,我根据案例的情况总结了大数据体系的发展趋势,当然,不管是模块化、平台化还是实时化,其实都是对效率提升和降低成本的追求。 你可以根据我们这讲所学分析下你所在的公司的大数据框架,或者其他一些比较庞大的大数据体系,有什么问题,可以在评论区留言。 我觉得,虽然大数据体系已经有了很大的发展,但是仍然是不完善的,在以后的时间里仍然可能发生很大的变化。当然,这些都是依据我自己的一些经验,并不一定是最正确的。 (编辑:PHP编程网 - 金华站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐



浙公网安备 33038102330481号