北京看皮肤病最好医院 http://pf.39.net/bdfyy/bdfjc/180416/6171978.html

文/FrederickLiu和GarimaPruthi,GoogleResearch软件工程师

机器学习(ML)训练数据质量会对模型性能产生重大影响。衡量数据质量的一个指标是影响力(Influence),即给定训练样本对模型及其预测性能的影响程度。尽管对于ML研究人员来说,影响力是一个普遍的概念,但由于深度学习模型背后的复杂性及其规模、特征和数据集的不断增长,都使得影响力难以量化。

最近出现了一些量化影响力的方法。有一些放弃了一个或几个数据点,依赖于再训练时准确率的变化,还有一些使用既定的统计方法,例如,估计扰动输入点影响的影响力函数,或将预测分解为训练样本的加权重要性组合的表示方法。还有其他方法需要使用额外的估算,例如使用强化学习的数据估值。尽管这些方法在理论上是合理的,但它们在产品中受限于大规模运行所需的资源或者对训练造成的额外负担。

在NeurIPS上作为焦点论文发表的“EstimatingTrainingDataInfluencebyTracingGradientDescent”中,我们针对这一挑战提出了TracIn,这是一种简单的可扩展方法。TracIn背后的想法很直接:跟踪训练过程,捕获各个训练样本被访问时预测的变化。TracIn能够有效地从各种数据集中找到错误标记的样本和离群值,并为每个训练样本分配影响力分数,非常有助于理解训练样本(而不是特征)的预测。

EstimatingTrainingDataInfluencebyTracingGradientDescent



转载请注明地址:http://www.yingxianglia.com/wlyxl/7375.html