Yandex推出分布转移挑战加速ML研究
据外媒报道,俄罗斯科技公司Yandex与牛津大学和剑桥大学合作,在NeurIPS会议(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)上推出全球“转变挑战(Shifts Challenge)”,旨在解决机器学习(machine learning,ML)中的分布转移问题,并采用了当前业界最大的自动驾驶汽车(AV)数据集。
(图片来源:Berza项目https://t.me/berzaru)
该数据集是在美国、以色列和俄罗斯的各种天气条件下进行自动驾驶技术测试收集所得,包含600,000个场景,相当于1,600多小时的驾驶时间。
Yandex指出,克服分布转移是训练ML模型的一个关键方面,且对打造可以在所有环境下稳定运行的模型也非常重要。这也是在“现实生活环境”中运行模型的先决条件,例如在城市街道上行驶的自动驾驶汽车。因此,Yandex推出这类挑战是加速ML领域研究的关键工具。
“Shifts Challenge”共有三个竞赛项目,分别是AV轨迹预测、机器翻译和天气预报。除了600,000个场景下的AV数据集外,其他两个项目的参与者还可以访问来自Yandex的其他高质量数据集。AV项目的参与者将被邀请在某些特定类型的场景上训练其运动预测模型,然后在不同位置的不同条件下对其进行测试,以进一步改进。随后,挑战委员会对各模型进行评估。
基于模型的预测准确性以及在给定情况下估计其预测不确定性的能力,挑战委员会给出最终排名。不确定性估计会显示模型对其决策的确定程度。这与模型预测准确性一样重要,且对于AV技术的稳健性和可靠性至关重要。
剑桥大学在Shifts Challenge中的合作负责人Mark Gales表示:“随着深度学习方法越来越强大,这些方法被应用于更加有趣和多样化的领域。对于这些系统而言,‘知道什么时候不知道’以防止错误决策变得越来越重要。”
Yandex高级研究科学家兼Shifts Challenge负责人Andrey Malinin表示:“在开发能够产生准确不确定性估计的稳健模型的过程中,其主要障碍是庞大、多样数据集的可用性,其中,这些数据集包含真实工业任务的分布转变示例。该领域的大多数研究都是在具有合成分布转移的小型图像分类数据集上完成的。不幸的是,这些数据集上的较好成果通常不能推广到大规模工业应用,例如自动驾驶汽车。我们的目标是通过发布一个大型数据集来解决上述问题,其中该数据集包含与图像分类不同的任务的真实分布转移示例。我们希望这将为不确定性估计和稳健性研究树立新的标准。”