大数据、人工智能,技术真的能阻挡黑产脚步吗?
|
乔杨:“大数据风控,既要用‘术’也得懂‘道’” 01 数到用时方恨少 我讲两个部分,大数据风控困境和突围。首先,第一个问题,数据是不是越多越好? 我们认为在数据质量可控、数据质量有保证的情况下,尽量引入更丰富、更多元化的数据加入到模型中,对模型提升是非常重要的。 随着互联网的普及, 1994 年到 2004 年的十年期间,语音识别领域,语音识别的错误率下降了一半,机器翻译准确度提升了一倍。其中,20%来自于算法的提升,80%来自于数据量的提升。通过这个例子大家可以看到,数据量决定了可能的上限。 纵观中国整个数据积累的情况和成熟度,我们对这个市场并不是很乐观。目前数据共享问题并无有效的解决方案。所以基于在征信、大数据风控领域的经验,我们观察到“数到用时方恨少”是非常普遍的现象。 第二个问题,什么样的数据更优质? 在探讨这个问题之前,我想解释两个概念。第一个概念,什么是大数据? 大数据其实一定要具备三个特点,一是量大,二是多元性/多维度,三是即时性。百度地图的数据就具备这样的特点。 另外一个概念还需要解释一下:原始数据和加工数据的区别。 很多公司之间的客群、抓取数据的方式、手段和维度都是类似的,但为什么风控表现参差不齐呢?其实这个道理很简单。这些数据提供方,包括这些数据使用方,在“特征工程”阶段的能力不一样。 如果说数据量决定了模型的可能上限,特征工程的优劣决定了模型的实际上限。 不同的特征工程对模型效果的差别是非常大的。举个例子, 2016 年 6 月,大数据分析竞赛平台Kaggle,上线了全球最大的酒店预定网站Expedia 的“酒店预定预测比赛”。 这项比赛主要是要求参赛者基于Expedia提供的用户的历史搜索数据来预测客户最终会预定哪一个酒店,共有 1974 个队伍参赛。 最终比赛结果评比标准为平均精确值(Mean Average Precision),值越大说明模型预测的精度越高。 我们以最终排名前 15 位的一个团队的特征工程步骤为例。在第一阶段,团队做了较为简单的特征工程处理,最终得分0.04。第二阶段,团队进行了精进的特征工程,最终得分0.28。模型效果提升达到了 6 倍。由此可见特征工程对模型效果的影响是非常明显的。 特征工程无非是从大量的噪声数据里面筛选出可用的、有价值的特征。自从互联网诞生以来,就像我们在录音的时候产生大量的噪声一样,产生大量的垃圾信息。如何从这些海量的数据里面筛选出可用的、高效的特征,其实就是考验一个建模能力的过程。 所以关键的步骤有两个,第一步,数据清洗;第二步,特征变量的加工。 那么,是不是召集一个技术非常强大的团队,全部是由博士和统计学的硕士组成的团队做出来的模型一定是非常好的?这里有思维误区,特征工程其实优劣与否,不只是基于一个理论知识,更多是对于业务的理解。 举个我前东家的例子: Discover信用卡反欺诈做得好在业内是有口碑的。第一代反欺诈模型是vendor模型(外包模型),是由包括FICO在内的顶尖数据公司模型团队搭建的。 经济危机后,美国监管机构要求金融机构能够解释自己的模型,由于模型是外包的,我们对于模型的解释性是非常受限的。只有通过自建模型才能解决这个问题。 我有幸参与并领导了Discover第二代反欺诈预测模型项目。我们整个项目团队一共 6 个人,用了 6 个月的时间完成了模型的搭建,模型的效果大大出乎我们的意料。 所以,一个成功的风控团队不只是建立在扎实的理论知识基础上的,更需要对业务的深刻理解。 那有人会问了,我花重金请一批既有技术又懂业务的大牛,这个问题不就解决了吗?答案也是否定的。 (编辑:PHP编程网 - 金华站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


