加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 金华站长网 (https://www.0579zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

揭秘跨设备数据的真相

发布时间:2022-09-27 12:49:11 所属栏目:大数据 来源:
导读:  “确定性”并不等于“真实”。

  从目前行业发展情况来看,跨设备精准度已经沦为一个问题,就是“你的设备ID数据中有多少是确定性的(deterministic),有多少是概率性的(proba
  “确定性”并不等于“真实”。
 
  从目前行业发展情况来看,跨设备精准度已经沦为一个问题,就是“你的设备ID数据中有多少是确定性的(deterministic),有多少是概率性的(probabilistic)”。
 
  然而,这种量化精确度的尝试是基于有缺陷的假设,即任何直接观察到的连接都是100%真实的。所谓的“确定性”连接来自已经在设备上登录的用户,这也已经成为行业对高质量匹配的简称,但事实上,登录并不总是讲真话。比如,当你的孩子用你的手机登录了Facebook,这被算作一次登录,但它并不是你。
 
  再者,如果用户并不想提供他们真实信息,只是伪造了一个邮箱,比如no@no.com呢?这类电子邮箱地址可以在一些数据库里匹配到成千上万的美国家庭,包括noname@noname.com、none@none.com 和no@email.com等等。如此下去,可能过不了多久,你就能建立一个连接到数百万个基于真实设备的所谓“确定性”的数据集。
 
  不幸的是,这些“坏数据问题”十分常见。在进行数据清理之前,行业的数据库中,多达15%的单个电子邮箱都连接到2个甚至更多的家庭。也就是说,很多数据库中所谓的“确定性”数据,也只不过是85%的准确。
 
  不少公司可能会声称自己有很多的确定性匹配,但如果他们没有清理坏数据的方法,所谓的解决方案也就无从谈起。因此,关于数据质量,一个更好的方式是承认任何事情都是概率性的。
 
  任何单个可观察到的连接,都可以被认定为一个事实,但并不非所有的事实都是真实的。包括确定性连接在内的所有连接,都带有一定的概率性,从0到100%不等。登录数据的准确性自然更高,但很少能达到100%准确。
 
  任何数据都有概率性
 
  目前根本没有足够高质量的确定性数据,来规模化地构建一个跨设备图表,因此,即使像Facebook和Google这样的大玩家,也是基于所谓的“概率性”技术。
 
  数据真实性_真实女性乳房图片性_数据压缩技术利用了数据的什么性
 
  概率匹配通常是在没法直接观察的情况下通过推断来关联,也就是说,你要去预测两个信息在现实生活中可能是相连的。当然,通过数据、技术和算法,也能很好地梳理出这些联系。
 
  具体是什么操作?概率模型包括三个组成部分:
 
  首先,有可观测数据。你要用它们来预测如何做匹配。提供一个跨设备解决方案,最好能把每个设备与IP地址、时间戳、应用和设备类型等元数据联系起来,然后尽可能多地进行观察和比对。当然,数据越多越好。
 
  其次,算法。你如何来做预测?方法可以多种多样,但最重要的是,算法要能很好地识别正确的匹配。统计学家乔治·伯克斯(George Box)曾说过一句名言,“本质上说,所有模型都是错误的,但有些是有用的。”那么,重点就是你将如何判断你的模型中有哪些有用的信息呢?
 
  最后,要有真实的数据集(a truth set)。它们可以用来训练和验证你的算法。
 
  一个真实的数据集,是一系列被假定为100%真实的连接,这是评估任何一个概率解决方案所需要的。因此,获取一个真实集合必须经过慎重考虑:如果数据将被不断地用于判断算法,那你首先要确保真实集合自身必须是“真实”的。
 
  真实数据有多真实
 
  行业里常有人说:“我的数据是一个真实的集合。”这还不够好,因为你首先要理解什么是真实。
 
  只要问对问题,你就会发现大多数的公司并不能验证他们口中的真实数据。
 
  比如下面这个案例:一家公司与第三方合作,拿到了一批匿名的电邮数据信息,然而却完全不知道这些数据是如何收集的,又有多高的精准度。这些所谓“真实的数据”往往数量很小,只有百万级或更少的跨设备匹配,并不能代表更具一般性的人群属性。
 
  确定性数据也不能盲目的认为就一定是精准的。如果你用脏数据来训练模型,那你得到必然也是一个劣质结果。“垃圾进,垃圾出。”
 
  因此,对于数据源来说,你只能信任那些有真实数据记录源头的data,例如一些电商会按月记录消费者的交易信息,同时会根据用户提供的地址送货,把二者串联起来,这样的数据更具真实性。
 
  如何评估跨屏方案
 
  对于像Facebook、Google和Twitter这样的公司来说数据真实性,电子邮箱地址就足够了,因为它可以证明确实是“你”在使用他们的服务。但是在更加开放的web环境中,你需要依靠的是DSP和广告交易市场,因而鉴别的标准也需要更高。
 
  精确度是关键。跨设备匹配几乎影响到重定向和归因频次的方方面面。想办法把他做好是值得的。
 
  那么,该如何正确评估一个跨屏解决方案?
 
  不要问他们有多少确定了身份的ID。相反,问问他们有关数据规模和精度的问题,并确定这些“真实数据”是真的。
 

(编辑:PHP编程网 - 金华站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!