通过与孙媛对话,我们了解到目前语料库研究已经从最初的语言学领域经过发展,扩展到各个学科领域,为不同的研究问题提供了不同的研究基础和数据支撑。未来,语料库的研究将会应用于各个学科领域,实现为不同的学术问题研究提供服务。但在发展过程中,面临着一定程度上的困难。
孙媛
中央民族大学硕士生导师,中科院自动化所博士,中国语文现代化学会少数民族语文现代化专委会秘书长
研究方向:自然语言处理
注:自然语言处理指NLP(Natural Language Processing)
(一)少数民族语言本身具备特殊性
“民族语言之间的差异,就造成它的难点在于不可能拿一种语言处理的方法完全照搬到另外一个语言上,每种语言都有各自的一些特点和处理的方法。”
(二)少数民族语料库规模小
“很多从事民族语言信息处理的研究人员,必须要借助于懂民族语言的人来做语料库建设。有了数据,才能用机器学习的方法,甚至深度学习的方法去训练模型。但是好的数据、好的算法,才能有好的结果,才能推动更多民族语言上层应用的研究和开发。因此,需要懂民族语言的群体参与语料库建设。而相对来说这部分群体人员较少,而且语料库建设的时间相对较长,因此我们需要进一步的合作。”
(三)少数民族语料库的开放性问题
“一些基础研究的民族语言语料库没有对外公开,比如词法分析的语料库。这些都极大的限制了民族语言信息处理的发展。目前,我们研究组也构建了一些代表性的语料库,比如2万+的高质量藏文机器阅读理解问答语料库,2万+的藏文实体关系抽取训练语料库,20万+的藏文实体知识库等。这些语料库我们也将逐步对外公开,不仅仅是国内公开,而是对世界公开。从而让更多的人参与民族语言信息处理的工作。”
(四)少数民族语料库的建立需要共同的努力
随着人工智能和大数据的迅速发展,作为非结构化数据重要载体的语料库在整个智能知识挖掘的过程中起到了越来越重要的作用。尤其在少数民族语料的数字化保护和应用方面扮演着重要的角色。
在信息社会和数字化生存的时代,语言资源是国家最重要的信息资源。语料库的建设,作为国家保护濒危语言的战略决策,需要将其纳入法制的轨道。因此,我们要把语言资源的收集、保护与开发提高到国家高度层面来认识,从点滴做起、从身边做起,切实保护每一种珍贵的语言。在“声声”不息的背后,汇聚了每一个华夏儿女切实保护珍贵语言的心血与汗水。