行业大数据应用
发布时间:2023-01-12 10:47:21 所属栏目:大数据 来源:
导读: LESSON1 1. 举例说明结构化数据、半结构化数据、非结构化数据的区别 结构化数据指的是数据在一个记录文件里面以固定格式存在的数据。结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS(关系
|
LESSON1 1. 举例说明结构化数据、半结构化数据、非结构化数据的区别 结构化数据指的是数据在一个记录文件里面以固定格式存在的数据。结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS(关系型数据库) data;半结构化数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表;非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。 2. 请在生活中举出一个基于 "数字映像”探索或研究现实世界的实体或现象的例子,思考如何才能获得更准确的数字映像? 数字映像,专业术语叫数字孪生(Digital Twin),数字孪生是指充分利用物理模型、传感器、运行历史等数据,集成多学科、多尺度的仿真过程,它作为虚拟空间中对实体产品的镜像,**反映了相对应物理实体产品的全生命周期过程。**Digital twin最为重要的启发意义在于,它实现了现实物理系统向赛博空间数字化模型的反馈。 应用举例: 美国国防部最早提出利用Digital Twin技术,用于航空航天飞行器的健康维护与保障。首先在数字空间建立真实飞机的模型,并通过传感器实现与飞机真实状态完全同步,这样每次飞行后,根据结构现有情况和过往载荷,及时分析评估是否需要维修,能否承受下次的任务载荷等。钢铁侠,托尼·史塔克在设计、改进和修理钢铁侠战衣的时候,并不是在图纸或实物上进行操作,而是通过一个虚拟的影像映射来辅助实现的。整个流程下来,一个可视化、智能化、数字化的设计场景清晰地呈现在工程设计者的眼前。[来源] 3. 什么是大数据的4V或5V特征,这一特征对大数据计算过程带来什么样的挑战? IBM提出了大数据”5V”特点: 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 三、Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。 四、Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。 五、Veracity:数据的准确性和可信赖度,即数据的质量。 4V指的是Volume、Variety、Value、Velocity。 大数据的4v特征及思考:从大数据的4V视角看文本分析 4. 请分析相对于传统统计学而言,大数据在思维方式上的主要变化。 大数据和统计的区别主要有两个方面:其一是数据分析时不再进行抽样,而是采用population(n=all);其二是分析方法,侧重所有变量之间的相关性,而不再根据背景学科理论筛选变量,进行假设检验。 假设检验的结果只能不否认原假设,并不能得出完全支持的结论。但大数据的情况就不一样。对大数据进行分析时,我们并不需要对问题提出假设,而是通过算法找出变量之间的相关度。(?看不懂) 5. 结合一个具体例子, 说明数据分析的一般过程。 整个过程 1)提出问题 2)理解数据 3)数据清洗(占绝大部分时间,直接影响后面结果) 4)建立模型 5)数据可视化 知乎专栏:数据分析的基本过程附案例 6. 如何理解数据科学? 简单定义为:数据科学是从数据中提取有用知识的一系列技能和技术。 这些技能通常用德鲁·康威(Drew Conway)创造的维恩图(或它的变体)来表示: 在这里插入图片描述 三个圆圈分别代表三个不同的领域:编程领域(语言知识、语言库、设计模式、体系结构等);数学(代数、微积分等)和统计学领域;数据领域(特定领域的知识:医疗、金融、工业等)。 这些领域共同构成了定义中的技能和技术。它们包括获取数据、数据清理、数据分析、创建假设、算法、机器学习、优化、结果可视化等等。数据科学汇集了这些领域和技能,支持和改进了从原始数据中提取见解和知识的过程。 数据科学也可以定义为:研究应用数据处理和分析方面的进展,为我们提供解决方法和答案的领域。 LESSON2 1. 大数据的主要来源有几种? 1)交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。 2)移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。 3)人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。 4)机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。 5)互联网上的“开放数据”来源,如政府机构行业大数据,非营利组织和企业免费提供的数据。 2. 大数据集成的基本原理有哪些? 【背景】近几十年来,科学技术的迅猛发展和信息化的推进, 使得人类社会所积累的数据量已经超过了过去5 000年的总和,数据的采集、存储、处理和传播的数量也与日俱增。企业实现数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择。 数据集成即将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。(《大数据导论 》武志学) 3. 能否举例说明基于特征级别与基于语义的跨界数据集成方法的不同 4. 数据质量有几种维度?分别是什么? 主要有以下六个维度 1)完整性 Completeness:完整性用于度量哪些数据丢失了或者哪些数据不可用。 2)规范性 Conformity:规范性用于度量哪些数据未按统一格式存储。 3)一致性 Consistency:一致性用于度量哪些数据的值在信息含义上是冲突的。 4)准确性 Accuracy:准确性用于度量哪些数据和信息是不正确的,或者数据是超期的。 5)唯一性 Uniqueness:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。 6)关联性 Integration:关联性用于度量哪些关联的数据缺失或者未建立索引。 5. 你能提出一个金融行业领域中的数据获取的应用案例吗? 银行的征信制度。 个人信用是指根据居民的家庭收入与资产、已发生的借贷与偿还、信用透支、发生不良信用时所受处罚与诉讼情况,对个人的信用等级进行评估并随时记录、存档,以便信用的供给方决定是否对其贷款和贷款多少的制度。 6. 想实现对一-个城城市空气污染的检测和预测,请思考下述问题 (1) 需要哪些数据? 空气质量检测数据,包括地理位置,空气中有害气体含量 (2)这些数据来源于何处? 空气质量监测站和遥感卫星 (3)这些数据应当以何种方式采集? 传感器 (4)这些数据应当经过何种预处理? 数据清洗,数据集成,离散化和概念层次树 (5)如何集成这些数据以支持空气污染检测和预测的任务 7. 请分析数据预处理应当在数据集成之前还是之后进行,为什么? 之前。不同来源、格式、性质的数据只有在经过预处理之后,才能在逻辑上或物理上有机地集中。 8. 请分别举出在教育领域需要传统信息集成和跨界信息集成的实例 9. 请分析在交通大数据(如GPS采集的数据、打车软件中记录的数据)中可能遇到数据质量问题以及这些数据质量问题的检测方法和修复方法。 交通大数据中有关道路拥堵情况的采集主要依靠GPS和志愿者人工反馈,网络延迟将导致这些拥堵数据出现质量下降、可信度低的问题。 10. 假设需要从大众点评、美团、百度外卖3个数据源收集北京市餐馆的信息,请简述可能会用到的数据集成步骤。针对上述场景,列举数据中可能存在的数据质量问题。 1.与软件厂商合作 作为企业,让厂商正确理解你的业务需求对自己有益无害。因为只有这样,厂商高管才能准确识别并集成所有你需要的数据点。 2.定义划分集成优先级 列出所有所需的数据集成任务,安排好部署计划。你的目标应该是在部署或正式投入使用阶段之前完成所有的数据集成活动,并界定增长数据的更新频率。除此之外,还要本着成本时间的节约,根据数据集成解决方案对其效益进行估测。 3.选择合适的集成界面 数据集成解决方案提供了两种数据界面:单向和双向。你需要知道应该应用哪种。 单向界面中,数据仅从A点传送到B点,没有返回或来回的运动。在我们的B2B平台上,供应商能够追踪到商店的货运信息。库存、付款以及销售信息都被发送到B2B平台上,但没有任何数据返回到这些数据源。 双向界面中,数据从一个应用传送到另一个应用,然后返回。在我们的平台上,如果部署了一个新的应用(如销售点,POS),产品数据就会从商品管理系统发送到POS上,然后销售数据又会从POS发回来。 4.选择一款正确的接口媒体,最简单的不一定最好 选择接口媒体一定要考虑未来需求和升级问题。数据集成有很多种方法–XML、逗号限定、电子表格、直接数据库连接等等;然而,最简单的方法不一定最适合你的企业,应该从多方面进行考虑,如可扩展性需求、数据容量和预算开销等。多年来,基于文本的集成一直很盛行,但是目前有很多企业都开始使用XML和直接数据库连接。 5.监控流程,设置多个检测点 对集成数据进行微调。对我们的B2B平台来说,数据集成在每天结束的时候都会进行,而只有增长的数据会被传送到服务器上。Hypercity的检测点从源系统开始,分布于各个级别。一些涉及销售数量和零售价格的问题在这些检测点中提出。B2B平台的提取上载阶段构成了第二个检测点,问题的答案会在这里出现。自动化系统会检测输入数据的准确性。为了避免错误的出现,相关用户会收到提示邮件,以确认全天的数据是不是正确上载、是不是需要纠错措施。 6.保证数据的安全性 根据风险级别设置安全政策。如果你只是在内网中转换数据,也许不需要加密;但如果你需要将数据对外传送,可能就要加以防范了。 (编辑:PHP编程网 - 金华站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐



浙公网安备 33038102330481号