亚马逊将发布超过400万字的会话和知识数据集

亚马逊计划为自然语言处理研究提供大量数据样本。西雅图公司今日表示，将于2019年9月发布Topical Chat数据集，该数据集是一系列众包人类对话，将提供给参加年度Alexa Prize社交Bot大挑战的团队。

根据亚马逊的数据，热门聊天数据集包含超过21万个单词或超过410万个单词，使其成为最大的公共社交对话和知识数据集之一。每个语料库的对话和对话轮与提供给大众工作者的知识相关联，并且知识是从与一组实体相关的一系列“非结构化”和“松散结构化”文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在他的博文中明确表示，任何对话都不是与Alexa客户的互动。

Hakkani-Tur说：“本系列的目标是实现基于知识的神经反应生成系统的后续研究步骤，解决自然对话中其他公共数据集无法解决的难题。“这将使研究人员能够专注于人类在主题之间的转变，知识的选择和丰富，以及将事实和观点融入对话.[并支持]高质量和可重复研究的出版。”

亚马逊表示，竞逐Alexa Prize的团队可以访问该数据集的扩展版本——名为Extended Topical Chat的数据集——其中包括正在进行的收集和注释的结果。

亚马逊的开源数据集可以用来训练AI模型识别跨语言和脚本类型的名称，今天的公告是在大约六个月后发布的。它被称为“音译多语种命名实体音译系统”，包含从维基百科删除的阿拉伯语、英语、希伯来语、日语片假名、俄语等近40万种语言。