
自然语言是几千年来人们生活、工作、学习中必不可少的元素,而计算机是20世纪最伟大的发明之一,如何利用计算机对人类掌握的自然语言进行处理、甚至理解,使计算机具备人类的听说读写能力,一直是国内外研究机构非常关注和积极开展的研究工作。
自然语言处理技术所涵盖的研究内容非常广泛,从研究成果的表现形式来说,基本可以分为基础研究和应用研究两大类:
基础研究:主要指对自然语言内在规律的研究,从研究深度和难度上大致可以划分为词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析等等。
应用研究:主要指基于基础研究的成果,面向不同的应用,研发相关的自然语言处理技术,大的方向至少包括:拼音输入法、信息检索、信息抽取、自动摘要、机器翻译、语音合成、语音识别、文本匹配、文本分类、对话系统等。
自然语言处理技术中最核心的自然语言理解技术,从进展和目前所取得的成果来说,都与人们的普遍预期有较大差距。但是随着自然语言处理技术的研究积累,以及计算机技术水平的快速发展,越来越多的自然语言处理技术正逐步走向实用,并且创造了巨大的经济价值和社会价值。互联网、电子文本、短消息、语音通讯等等自然语言媒介的快速增长,也为自然语言处理技术的研究和应用提供了非常好的机遇。
科大讯飞公司经过多年的核心研发,目前在词典编撰、分词技术、语法分析、语言模型、互联网分析等方面形成了深厚的积累,同时开发了分词系统、对话系统、文本分类、信息过滤、智能文本匹配、信息抽取、自动摘要等相关应用系统。
下图为科大讯飞语音合成系统中自然语言处理的流程图:

|