近日,阿里巴巴披露了其自然语言处理技术(NLP)取得的新成绩:在中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军(核心指标比其他参赛机构高出一倍);在全球顶级的知识库构建测评KBP2017中,斩获英文实体发现测评全球冠军。
其中,KBP是由NIST(National Institute of Standards and Technology,美国国家标准与技术研究院)指导,美国国防部协办的赛事,主要任务是要求参赛AI从自然书写的非结构文本中抽取实体,以及实体之间的关系。具体表现为在AI算法“读完”一篇英文文章后,自主构建一个物理世界实体命名和实体之间关系的知识库,而这也吸引了包括IBM Research, BBN, Stanford Univ, CMU Univ, UIUC Univ, Columbia Univ, 腾讯等20多家全球顶尖团队参与。阿里真的没有技术?
互联网圈里流行着一句话:阿里巴巴运营做得好;百度,技术做得好;腾讯,产品做的好。这一次在KBP比赛中,做产品的腾讯却被阿里实力打脸。为啥?因为阿里强大的商业性掩盖了其技术光芒,他的技术也是在互联网圈里面最强大最厉害的。阿里云的语音识别系统不输于科大讯飞,在BAT中远远超过了BT。
谈到语音识别系统,就涉及到阿里的自然语言理解(NLP)技术。我们可以从其产品天猫精灵中窥见一二。对于NLP可以分三层来看:第一层理解能力、第二层信息获取和问答的能力和第三层机器和人进行自然的交流。目前的天猫精灵里做的就是大量的任务型的理解是第一个层次的理解能力,基于目前的技术这部分已经做得比较好了,换句话讲就是大量的任务可以通过语言来指挥机器去完成。
自然语言处理的两个核心应用场景——文本分类和智能问答,在以人工智能为依托的硬件上阿里不余遗力,将其研发的“即刻唤醒,即刻识别”神经网络模型应用到智能音箱上。只要轻呼一声天猫精灵,就能帮助你做任何事情!如语音购物、充话费、叫外卖、放音乐甚至控制智能家居等!智能问答准确率相比微软的wikiqa数据集和IBM的insuranceqa数据集足足提升了2-4%,也是目前业内的最高水准。
自然语言理解是AI领域排名第一的难题和挑战
NLP的四大经典“AI 完全 ”难题:问答、复述、文摘、翻译;只要解决其中一个,另外三个就都解决了。问答:就是让机器人像真人一样很开放的回答你提的各种各样问题;复述:是让机器用另外一种方式表达出来;文摘:就是告诉你一篇很长的文章,让你写一个100字的文摘,把它做出来是非常难做的;翻译:也是很困难的,英语思维方式和中文思维方式转换过来,中间会涉及到很多复杂的问题。
自然语言处理包括自然语言理解和自然语言生成。自然语言理解是将自然语言变成计算机能够理解的语言,及非结构化文本转变为结构化信息。自然语言处理难在哪呢?
它涉及到人的认知,知识<—>语言<—>思考<—>行动,左边专注到知识,右边专注到思考和行动。它是非常复杂的,最难的问题有两个:第一个是歧义,自然语言与计算机语言是完全不可调和的,计算机语言是精确的、可枚举的、无歧义的。第二个是变化,变化是非常剧烈的。它的语法是群体一致,个体有差异,语言每天都在发生变化,新词总在不断的产生,无法穷举, 不同上下文不同含义,甚至随时间推移,词义也在发生变化,例如Apple—>公司,甚至词性也在发生变化,如Google—>to google 。
未来,NLP 会走向何方?
现在自然语言处理已经在很多领域都有很广阔的应用了,以阿里集团为例,几乎阿里的每个重要的产品都跟自然语言处理相关,例如商品的搜索和推荐;当然,阿里的生态是非常复杂的,不能用一个简单的自然语言处理技术去解决所有的问题,以往自然语言处理是比较简单的,甚至一个词表放上去就解决所有问题了。随着电商生态的扩展,就需要非常复杂的技术,所以阿里还需要完备且高性能的自然语言处理技术。
早从六七十年代开始,自然语言处理都是采用“ 规则 ”方法,八十 年代后随着大的数据集的出现,统计自然语言处理方法便逐渐成为了主流;最近几年,随着深度学习的崛起,NLP也取得了快速的发展,所以它是一个非常成熟的领域;虽然深度学习是非常有价值的技术方向,它推动了自然语言处理的发展,但是靠分步学习,或者统计自然语言理解是远远不够的。
真正意义上的语义理解要能够分析出说话的背景,它要达到什么样的目的等等 ,把人类知识的表示,和对知识的理解更好的融入到技术当中,这样才能更有效。这不是只靠数据上的关系分析就能实现的,例如 Siri 、Cortana 都是基于数据驱动的方式来实现语义理解,但它们依然无法像人一样去理解。
写在最后:
目前NLP领域,大致有三种类型的工作,一种是做算法模型的,包括深度学习模型还是传统的模型,第二种是做自然语言理解系统的搭建的,第三种是利用自然语言理解技术去实现业务逻辑和产品功能的。在完全搞清人脑机制前,NLP的研发永远是在模拟人类群体智慧在某些文字方面的表现;这种模仿的效果会越来越好,持续提升;更深入的模拟是,NLP会和语音、图像、视频、触觉等多维度信息融合学习。