加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 金华站长网 (https://www.0579zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【PPT+实录】搜狗资深工程师申贤强:大数据处理和统一任务调度系

发布时间:2021-03-18 13:11:16 所属栏目:大数据 来源:网络整理
导读:副标题#e# 【本文系互联网技术联盟(ITA1024)原创首发,转载或节选内容前需获授权(授权后一周以后可以转载),且必须在正文前注明:本文转自互联网技术联盟(ITA1024)技术分享实录,微信公众号:ita1024k】 申贤强 搜狗 资深工程师 互联网技术联盟 ITA102

所以整体说,数据分析整体设计的流程和过程是比较复杂的,无法要求数据分析师一个人全部覆盖所有的事情,需要平台提供一些工具或系统将数据分析师的工作简化,让数据分析师专心写流程,下面我们要介绍如何去提供一些工具,和我们的任务管理系统。

???

【PPT+实录】搜狗资深工程师申贤强:大数据处理和统一任务调度系

我们做工具和系统的目标简化流程,降低人力开发与运维成本,提高开发效率提高资源利用率。

???

【PPT+实录】搜狗资深工程师申贤强:大数据处理和统一任务调度系

如果做到这一点,首先看,数据分析师在写SQL查询之前需要做的准备工作有哪些?原始日志导入,Hive生成default数据仓库需要做数据清洗,即ETL流程。首先看原始日志的导入。

???


【PPT+实录】搜狗资深工程师申贤强:大数据处理和统一任务调度系


在搜狗早期的框架,大概的结构是这样,由于历史原因,存储和计算集群是分离,我们需要进行一次数据传输,这种数据传输会造成它的不好的地方,一,不是实时入Hive,这是离线传输系统。第二,数据的格式是线上服务器固定的格式,所以它的采集频率以及它的格式是固定,对我们使用会造成一定的影响。


【PPT+实录】搜狗资深工程师申贤强:大数据处理和统一任务调度系

它的缺点:

???

  • 延迟比较大,它不是实时;

  • 频率修改不灵活,如果固定一小时日志采集,我们要改5分钟,需要写逻辑。

  • 文件存储,计算性能差,不支持流式处理。

???

(编辑:PHP编程网 - 金华站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!