揭秘跨设备数据的真相
发布时间:2022-09-27 12:49:11 所属栏目:大数据 来源:
导读: “确定性”并不等于“真实”。
从目前行业发展情况来看,跨设备精准度已经沦为一个问题,就是“你的设备ID数据中有多少是确定性的(deterministic),有多少是概率性的(proba
从目前行业发展情况来看,跨设备精准度已经沦为一个问题,就是“你的设备ID数据中有多少是确定性的(deterministic),有多少是概率性的(proba
|
“确定性”并不等于“真实”。 从目前行业发展情况来看,跨设备精准度已经沦为一个问题,就是“你的设备ID数据中有多少是确定性的(deterministic),有多少是概率性的(probabilistic)”。 然而,这种量化精确度的尝试是基于有缺陷的假设,即任何直接观察到的连接都是100%真实的。所谓的“确定性”连接来自已经在设备上登录的用户,这也已经成为行业对高质量匹配的简称,但事实上,登录并不总是讲真话。比如,当你的孩子用你的手机登录了Facebook,这被算作一次登录,但它并不是你。 再者,如果用户并不想提供他们真实信息,只是伪造了一个邮箱,比如no@no.com呢?这类电子邮箱地址可以在一些数据库里匹配到成千上万的美国家庭,包括noname@noname.com、none@none.com 和no@email.com等等。如此下去,可能过不了多久,你就能建立一个连接到数百万个基于真实设备的所谓“确定性”的数据集。 不幸的是,这些“坏数据问题”十分常见。在进行数据清理之前,行业的数据库中,多达15%的单个电子邮箱都连接到2个甚至更多的家庭。也就是说,很多数据库中所谓的“确定性”数据,也只不过是85%的准确。 不少公司可能会声称自己有很多的确定性匹配,但如果他们没有清理坏数据的方法,所谓的解决方案也就无从谈起。因此,关于数据质量,一个更好的方式是承认任何事情都是概率性的。 任何单个可观察到的连接,都可以被认定为一个事实,但并不非所有的事实都是真实的。包括确定性连接在内的所有连接,都带有一定的概率性,从0到100%不等。登录数据的准确性自然更高,但很少能达到100%准确。 任何数据都有概率性 目前根本没有足够高质量的确定性数据,来规模化地构建一个跨设备图表,因此,即使像Facebook和Google这样的大玩家,也是基于所谓的“概率性”技术。 数据真实性_真实女性乳房图片性_数据压缩技术利用了数据的什么性 概率匹配通常是在没法直接观察的情况下通过推断来关联,也就是说,你要去预测两个信息在现实生活中可能是相连的。当然,通过数据、技术和算法,也能很好地梳理出这些联系。 具体是什么操作?概率模型包括三个组成部分: 首先,有可观测数据。你要用它们来预测如何做匹配。提供一个跨设备解决方案,最好能把每个设备与IP地址、时间戳、应用和设备类型等元数据联系起来,然后尽可能多地进行观察和比对。当然,数据越多越好。 其次,算法。你如何来做预测?方法可以多种多样,但最重要的是,算法要能很好地识别正确的匹配。统计学家乔治·伯克斯(George Box)曾说过一句名言,“本质上说,所有模型都是错误的,但有些是有用的。”那么,重点就是你将如何判断你的模型中有哪些有用的信息呢? 最后,要有真实的数据集(a truth set)。它们可以用来训练和验证你的算法。 一个真实的数据集,是一系列被假定为100%真实的连接,这是评估任何一个概率解决方案所需要的。因此,获取一个真实集合必须经过慎重考虑:如果数据将被不断地用于判断算法,那你首先要确保真实集合自身必须是“真实”的。 真实数据有多真实 行业里常有人说:“我的数据是一个真实的集合。”这还不够好,因为你首先要理解什么是真实。 只要问对问题,你就会发现大多数的公司并不能验证他们口中的真实数据。 比如下面这个案例:一家公司与第三方合作,拿到了一批匿名的电邮数据信息,然而却完全不知道这些数据是如何收集的,又有多高的精准度。这些所谓“真实的数据”往往数量很小,只有百万级或更少的跨设备匹配,并不能代表更具一般性的人群属性。 确定性数据也不能盲目的认为就一定是精准的。如果你用脏数据来训练模型,那你得到必然也是一个劣质结果。“垃圾进,垃圾出。” 因此,对于数据源来说,你只能信任那些有真实数据记录源头的data,例如一些电商会按月记录消费者的交易信息,同时会根据用户提供的地址送货,把二者串联起来,这样的数据更具真实性。 如何评估跨屏方案 对于像Facebook、Google和Twitter这样的公司来说数据真实性,电子邮箱地址就足够了,因为它可以证明确实是“你”在使用他们的服务。但是在更加开放的web环境中,你需要依靠的是DSP和广告交易市场,因而鉴别的标准也需要更高。 精确度是关键。跨设备匹配几乎影响到重定向和归因频次的方方面面。想办法把他做好是值得的。 那么,该如何正确评估一个跨屏解决方案? 不要问他们有多少确定了身份的ID。相反,问问他们有关数据规模和精度的问题,并确定这些“真实数据”是真的。 (编辑:PHP编程网 - 金华站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐



浙公网安备 33038102330481号