访谈——孙媛
访谈对象基本信息:
孙媛 女 副教授 中央民族大学硕士生导师,中科院自动化所博士,
中国语文现代化学会少数民族语文现代化专委会秘书长
研究方向:自然语言处理
注:自然语言处理指NLP(Natural Language Processing)
中国中文信息学会少数民族语言文字信息处理专业委员会将定于2021年10月15日至17日在北京市举办“第十八届全国少数民族语言文字信息处理学术研讨会”。在本届会议上,也将举办第二届少数民族语言分词技术评测。本次活动是在国家语委、国家民委等少数民族语文信息化事业的主管部委领导下,由中国中文信息学会主导,中央民族大学、清华大学、西藏大学联合发起,旨在推进少数民族语言智能信息处理技术的发展与交流。
少数民族语言文本的分词处理和中文分词一样是语言信息处理的基础性工作,是语言机器翻译、智能检索、自然语言理解与处理等智能信息应用的前提。民族文字分词系统的好坏将直接影响以该民族语言文本分词系统为基础的智能处理系统性能的优劣。因此,民族语言文本分词系统的评测是推动民族语言智能技术发展的重要手段。
什么叫做评测?
评测是指采用统一的标准语料,在公共数据集上进行相关软件的性能评价。因此,开展评测最关键的是评测语料。为了保证语料的标准性和正确性,我们通常会采用机器切分、人工校对的方法对生语料进行标注。目前,我们的一个主要工作就是多语种数据共享与公共评测,我也担任了中国人工智能学会多语种智能信息处理专业委员会语料共享与评测工作组副组长,首次组织开展了“少数民族语言分词技术评测”,并将评测语料对社会开放。这项工作对于推动人工智能多语种优质数据资源的持续汇聚、传播共享、评测服务、技术交流、国际合作与可持续发展具有重要意义。
当前民族语言语料库的建设方面有什么难点所在?
民族语言语料库建设是民族语言信息处理的基础而又非常重要的工作,直接关系到信息处理的结果。与中英文不同,目前很多研究领域的民族语言语料库建设还处于起步阶段,比如句法分析的语料库、阅读理解的语料库、知识库等。另外,一些基础研究的民族语言语料库没有对外公开,比如词法分析的语料库。这些都极大的限制了民族语言信息处理的发展。目前,我们研究组也构建了一些代表性的语料库,比如2万+的高质量藏文机器阅读理解问答语料库,2万+的藏文实体关系抽取训练语料库,20万+的藏文实体知识库等。这些语料库我们也将逐步对外公开,不仅仅是国内公开,而是对世界公开。从而让更多的人参与民族语言信息处理的工作。此外,由于语言之间的差异,它的难点就在于不可能拿一种语言处理的方法完全照搬到另外一个语言上,每种语言都有各自的一些特点和处理的方法。
为什么建设民族语言语料库的相关主体较少呢?
很多从事民族语言信息处理的研究人员,必须要借助于懂民族语言的人来做语料库建设。有了数据,才能用机器学习的方法,甚至深度学习的方法去训练模型。数据量的大小直接影响到算法的好坏和处理结果的好坏。好的数据、好的算法,才能有好的结果,从而推动更多民族语言上层应用的研究和开发。因此,需要懂民族语言的群体参与语料库建设。而相对来说,这部分群体人员较少,从而语料库建设的时间相对较长,因此我们需要进一步的合作。
所以说我们也需要合作?合作也是一个问题。
是的,不管是哪个民族语言的语料库建设,我们都希望能有更多的群体加入进来。对于少数民族群体的话,参与这项工作是出于对母语的一种热爱,我们希望有更多少数民族学者或者学生能够从事这方面的研究。当然,我们也希望有热爱民族语言信息处理的汉族学者和学生也能加入进来,共同推动民族语言信息化发展的进程。研究具有国际前沿高端水平的“语言理解-表达-语言智能服务平台”和“技术应用系统”,解决民族地区信息传播瓶颈问题,促进民族地区的信息化水平的提高,为国家智库建设和“一带一路”沿线国家的人才培养和文化交流提供优质服务,这也是我们的目标。