语料库
计算机科学和语言学共同发展的桥梁
语料库,通俗易懂的来说,就是存放语言材料的仓库,即语言数据库。建设这样的语言数据库,不仅可以精准翻译不同语境下的多义词,并且能够完成民族语言之间的互译。这对我国少数民族之间的交流、交往、交融有着极为重要的贡献。
国内语料库研究从内容上来看,大致可以分为两类:第一种类型的研究围绕语料库的构建展开,在明确语料库构建流程中,面向自然语言处理和知识挖掘的数据标注至关重要。
第二种类型的研究围绕语料库的应用展开,相关研究涉及领域十分丰富,从语言学领域的语言教学、词汇学领域的词典编纂,再到计算机领域的机器翻译、信息服务等……语料库广泛的应用场景更体现出其在信息时代珍贵的价值。
纵观国内语料库的建设历程,语言种类逐渐增多,国内少数民族语言语料库的构建研究工作也在逐步发展中,尤其是蒙古族、维吾尔族、藏族等几个少数民族语言的语料库。如下图所示:
汉蒙双语语料库
内蒙古大学蒙古语文研究所在2003年开始建设汉蒙双语语料库,该语料库总规模达10万个句对,为蒙古文信息处理、语言教学、汉蒙双语研究和汉蒙双语词典的编纂等工作的发展奠定了基础。
现代维吾尔语语料库
由新疆大学于2002开始建设,生语料规模达800万词。
西北民族大学大型藏文语料库
规模约1亿3千万字节
新疆师范大学维吾尔语语料库
收录200万词
西藏大学大型藏文语料库
总规模高达1.5亿藏文字符,其中3000万藏文字符经过分词和词性标注加工。
现代蒙古语语料库
由内蒙古大学蒙古语文研究所于1998年构建完成,总规模达500万词,涵盖了文科教材、理科教材、文学、新闻、政治、社会科学、自然科学、口语等类型语料。
中国社会科学院民族学语人类学研究所藏语语料库
收录500万藏语字符
研究
少数民族语言语料库——新兴技术与民族传统记忆的纽带
我国56个民族生活在同一片华夏大地上,如石榴籽般紧紧地簇拥在一起。虽山水相连,荣辱与共,但交际中的语言差异不可回避。因此,我们有必要对少数民族语料进行数字化保护,以促进民族地区经济发展以及各民族间的文化交流,铸牢中华民族共同体意识,实现共同繁荣。
随着计算机技术、网络技术的快速发展, 语料库技术得到了广泛的应用,。目前,我国已建立起了各种类型的语料库,语料库研究种类繁多,但目前专门针对少数民族地区语言的语料库仍处于起步阶段。
为了使少数民族群众共享信息时代的便利,国家采取各种措施促进少数民族语言文字规范化、标准化。目前,国家已制定了蒙古文、藏文、维吾尔文(哈萨克文、柯尔克孜文)、朝鲜文、彝文和傣文等文字编码字符集、键盘、字模的国家标准。开发出了多种电子出版系统和办公自动化系统,建成了一些少数民族文种的网站或网页。
语料库研究的主题演变
语料库相关研究学者分布
少数民族语言语料库——构建与应用
关于语料库的数据采集和处理方法,双语语料库文本数据大多利用网络爬虫技术从互联网上获取,然后对其进行数据预处理,特征提取,相似度计算等步骤,最终决定是否将其放入到双语语料库中。双语语料挖掘系统框架结构如图所示。
少数民族语言语料库
在民族地区语言教学中的应用
在语言教学日益强调民族文化的背景下,语料库在语言教学中的应用是相关研究中不可忽视的一部分,单语语料库在外语中的应用已有相当多的研究成果。另外,民族语言双语语料库应用于翻译教学也是一种可行的发展方向。双语平行语料库是一种可靠和高效的方式,对提高学生的专业词汇具有积极的促进作用。平行语料库在翻译课堂上能更全面地呈现数据,提升翻译学习的效率。
少数民族语言语料库
在语言对比和翻译研究中的运用
在语言教学日益强调民族文化的背景下,语料库在语言教学中的应用是相关研究中不可忽视的一部分,单语语料库在外语中的应用已有相当多的研究成果。另外,民族语言双语语料库应用于翻译教学也是一种可行的发展方向。双语平行语料库是一种可靠和高效的方式,对提高学生的专业词汇具有积极的促进作用。平行语料库在翻译课堂上能更全面地呈现数据,提升翻译学习的效率。
语料库
在其他领域中的应用
语料库研究已经从最初的语言学领域经过发展,扩展到各个学科领域,为不同的研究问题提供了不同的研究基础和数据支撑。未来,语料库的研究将会应用于各个学科领域,实现为不同的学术问题研究提供服务。
建立濒危语言语音语料库的意义,就是保护人类非物质文化遗产。使濒于消失的少数民族语言的声音永久而系统地保存下来,并能使国内外语言学习与研究者方便地进行大规模语音资料的查询、检索和统计。在全球化的过程中,世界各国都出现了非主体语言使用人数锐减,使用场域萎缩、甚至濒临消失的现象。这已引起学术界以及社会各界的广泛关注。中国目前实际存在的独立语言多于100种,但其中使用人数少的小语言占多数,如塔塔尔语,阿侬语等,只有几百人在使用。而满语,赫哲语,仙岛语等,仅有几十个人能不同程度地说出部分词语和常用短句。随着我国语言学界对语言多样性保护的认识日益深入,普遍认为建立语料库是对濒危语言进行抢救的重要举措。