Author

Topic: 用超算做阅读理解? 微软为ASC18大赛设AI难题 (Read 118 times)

jr. member
Activity: 30
Merit: 2
1月30日,ASC世界大学生超级计算机竞赛18赛季(ASC18)在京正式启动。参加ASC18超算竞赛的全球300多支队伍,将在接下来的几个月里,挑战一项由微软出具的极具挑战性的人工智能赛题——机器阅读理解。ASC18各参赛队将使用CNTK深度学习框架,独立开发机器阅读理解和问答的算法模型,使用最新超算技术结合MS MARCO数据集进行训练,以试图让机器更准确地回答问题。

  让机器具备自然语言的阅读理解与问答能力,是人工智能的核心难题之一,也是目前智能语音交互和人机对话的核心难题。一般来说,人们在读完一篇文章之后能够很轻而易举地归纳出文章中的重点内容,例如这篇文章讲的是什么人、在什么地点、做了什么事情等。机器阅读理解的研究就是赋予计算机与人类同等的阅读能力,即让计算机阅读一篇文章,随后让计算机解答与文中信息相关的问题。这种对人类而言轻而易举的能力,对计算机来说却并非如此。很长一段时间以来,自然语言处理的研究都是基于句子级别的阅读理解。例如给计算机一句话,理解句子中的主谓宾、定状补,谁做了何事等,但长文本的理解问题一直是研究的一个难点,因为这涉及到句子之间的连贯、上下文和推理等更高维的研究内容。

  现在,包括微软、卡内基梅隆大学、斯坦福大学在内的顶级人工智能专家和学者们正在研究这项复杂的任务,这一目标若能实现,将意味着当前的弱人工智能向强人工智能迈进了一大步。在前不久的由斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛的最新榜单上,微软亚洲研究院自然语言计算组于2018年1月3日提交的R-NET模型在EM值(Exact Match, 表示预测答案和真实答案完全匹配)上以82.650的最高分领先,并率先超越人类分数82.304。

  而从ASC世界大学生超级计算机竞赛已经发布的ASC18赛题可以看到,此次比赛采用的是一个更具难度的机器阅读理解与问答数据集——微软MS MARCO。这个数据集是基于Bing和Cortana上收集的真实数据构建的,包括10万个问题,100万个段落,以及超过20万个文件的链接。此次ASC18竞赛的初赛阶段,微软将提供该数据集中的部分数据供训练模型使用。而在决赛阶段,微软将提供一个全新的测试集来供选手们挑战。同时为了更好的让大学生入手和了解该赛题,微软也同时提供基于CNTK的基准代码和相关论文作为参考。

  此次ASC18人工智能赛题评判标准是基于各参赛队训练模型的机器阅读理解回答预测的准确率,这就要求队员们尽快学习掌握机器阅读理解与问答的算法特点,并熟练应用CNTK深度学习框架。由于赛题的数据集规模较大,如何充分发掘利用超算硬件的计算潜力也成为赢得比赛的关键。这次ASC18的人工智能赛题要求参赛队伍自己动手开发机器阅读理解的算法模型,运用最新超算技术来加速训练速度及提高精度,更要用真实的问题数据集来验证模型训练的成果,这对处于本科阶段的大学生参赛选手来说,无疑是一次“超级挑战”。

  ASC世界大学生超级计算机竞赛(ASC Student Supercomputer Challenge)是由亚洲超算协会和浪潮集团联合发起的世界最大规模的大学生超算竞赛,发韧于2012年,经过7年发展,影响力不断攀升。迄今为止,ASC 竞赛已吸引到全球超过 5500 名年轻人才参与,参赛队伍总数超过1100支。
Jump to: