最新任务型对话数据集大全

本文主要介绍由我研究中心博士生侯宇泰收集整理的一个任务型对话数据集大全。

合适的数据集或者语料是优秀的自然语言研究工作的基础，然而找寻合适的数据集通常是一件耗时耗力的工作。这时候一份优质的数据集汇总就能帮助科研人员，在研究开始的时候事半功倍。这篇文章就向你介绍一份优质的数据集汇总，帮助你的研究工作轻松选择一片合适的用武之地。

本文主要介绍由我研究中心博士生侯宇泰收集整理的一个任务型对话数据集大全。

图1. 数据集汇总项目

这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外，为了帮助研究者更好的把握领域进展的脉络，我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。

数据集的地址如下：

https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey

一.背景介绍：什么是任务型对话

我们收集的数据集主要针对任务型对话研究(Task-oriented Dialogue)。

任务型对话系统指在特定的情境下帮助用户完成特定任务的对话服务系统，例如帮助用户订餐、订酒店的对话系统。近年来，随着亚马逊Alex，微软小娜，苹果Siri等个人语音助理业务的兴起，基于对话的人机交互方式得到了广泛的关注，相关的研究也越来越多，俨然成为一个富有潜力的研究方向。

图2. 语音助手

目前任务型对话的研究可以大体分为两类：基于流程的任务型对话(Pipeline)以及端到端的任务型对话(End-to-End)。

基于流程的任务型对话是相对较为传统的方法。这种任务型对话的系统通过一套Pipeline流程实现。如图3所示，任务型对话系统的流程依次包括：自然语言理解、对话状态跟踪、对话策略学习，自然语言生成模块。具体的，用户输入自然语言，对话系统按流程依次完成：分析用户意图，更新对话状态，根据对话策略做出动作，生成最终的自然语言回复。

图3. Pipeline任务型对话

然而，Pipeline流程式的对话系统存在错误级联和标注开销大的问题，为此最近有一部分研究尝试通过直接进行端到端的任务型对话学习来规避这些问题。端到端式对话系统根据用户输入句子直接给出自然语言回复。

二.为什么要做数据集汇总?

任务型对话任务并不是新课题，但是针对任务型对话的广泛研究在最近几年才兴起。任务型对话研究的方兴未艾反映在数据和语料上，就是目前现有的任务型对话数据集数量少，且其他成熟的任务已有的数据集在数据量上要少的多。在这种情况下，尽可能多找到并有效的利用已有的数据资源就成为开展研究的关键之一。然而，搜罗并全面的寻找合适的数据集是一个费时费力的工作，所以整理统计目前已有的任务型对话领域的数据集的信息是有必要的，可以极大地为相关研究工作提供便利，让研究工作得以地快速开始。

除了数据本身的信息有价值之外，在重要数据集上的实验结果提升过程，可以很大程度上反映自然语言研究的前进脉络。所以，简单的数据集信息罗列并不能让我们满意，我们还计划提供一些常用数据上的实验结果和对应论文的信息。从而帮助研究人员了解和把握任务型对话领域研究的推进脉络。我们选择以Leaderboard的形式呈现数据集上的部分实验结果。

三.数据汇总的内容介绍

1.数据集信息

针对每个数据集，我们统计并总结了如下几个方面的内容。

表1. 数据集内容及说明