欢迎来到格策美文网
更新日期:2025-06-01 00:00
写作核心提示:
在撰写关于“AI研习丨基于词串的小语种预训练语言模型及语言分析技术”的作文时,以下事项需要注意:
1. 确定文章主题和结构 - 明确文章的核心主题,即小语种预训练语言模型和语言分析技术。 - 设计清晰的文章结构,通常包括引言、正文和结论。
2. 引言部分 - 引入话题背景,阐述小语种预训练语言模型和语言分析技术的重要性。 - 简要介绍相关研究现状和挑战。
3. 正文部分 - 详细介绍基于词串的小语种预训练语言模型: - 解释词串的概念及其在语言模型中的应用。 - 分析小语种预训练语言模型的优势和特点。 - 列举一些典型的小语种预训练语言模型及其应用场景。 - 深入探讨语言分析技术: - 介绍语言分析技术的定义和分类。 - 分析语言分析技术在自然语言处理中的应用。 - 讨论语言分析技术在解决小语种问题中的优势。 - 结合实例,展示基于词串的小语种预训练语言模型和语言分析技术的实际应用。
4. 严谨论述 - 在论述过程中,注意使用科学、严谨的语言,避免主观臆断。 - 引用权威资料和数据,增强文章的可信度。
5. 案例
摘 要:为提高小语种的分析和处理能力,针对小语种领域缺乏基础自然语言处理算法的问题,本文以词串研究为基础,分别提出了基于指针网络的多语形态切分方法、适用于多种语言的新词计算方法作为小语种领域的词串构建模型。在此基础上,针对小语种领域缺乏训练数据问题,提出一种基于词串的小语种预训练模型,通过优化词表,提高模型对小语种的处理能力。同时对小语种的翻译问题和命名实体识别任务进行了研究,提出了有效利用开源数据解决小语种领域缺乏语料库的问题。在每项研究上的实验表明,所提方法可以在无需人工标注数据集的前提下,实现最好性能,为缺乏训练数据的小语种自然语言处理处理技术研究提供新思路。
关键词:预训练语言模型;小语种;自然语言处理;语料库
0 引言
随着深度学习技术和预训练语言模型的发展,自然语言处理技术在主流语言上的效果越来越好。然而,对于小语种,由于研究数据和工具匮乏,当前主流的自然语言处理技术均不能直接应用到小语种领域。随着我国“一带一路”政策和民族政策的推进,对一带一路沿线国家及我国少数民族语言的研究已经成了当前研究热点。在小语种领域,目前普遍存在的问题是缺乏标注数据和基础处理技术,导致当前热门的深度学习方法因为数据集的缺少不能使用;而传统基于规则的方法则又因为缺少基础分词等工具,应用效果也很差。
多语言预训练模型的出现为小语种的研究提供了新思路,通过将所有语言用同一个模型训练,只需利用一种语言的标注数据进行微调,就可以使模型在所有语言的相关任务上得到不错效果。但是,当前预训练模型使用 WordPiece 作为词表的构建方法,预训练数据中并不是完整单词,会给模型引入歧义,从而影响模型的跨语言学习能力。另外,预训练语言模型只能解决新语言在部分自然语言处理部分下游任务上的数据缺失问题。
针对其他缺乏标注数据的任务,如机器翻译,仍然没有很好效果。针对上述问题,从当前小语种的研究缺乏基础研究工具和语料库的问题出发,通过形态切分方法、多语预训练语言模型和开源数据自动构建数据集等方法,完成了对小语种的自然语言处理分析任务,为后续研究工作提供思路。本文的主要贡献如下所述。
(1)首先提出了小语种的形态切分算法和新词计算方法,解决了小语种领域缺少分词算法的问题,同时将基于统计和信息熵的新词计算方法以形态切分结果为基础应用到了多语种领域,为后续工作提供了研究基础。
(2)提出了小语种多语预训练模型,在 mBert 的基础上,通过无监督方法计算并根据信息熵选择合适词串扩展预训练模型的词表,提高模型的跨语言学习能力。
(3)针对小语种领域缺乏数据集的问题,以机器翻译任务和医学领域的命名实体识别任务为例,提出了利用开源数据构建数据集的方法和相应的分析模型。相关实验表明,本文提出方法可以很好地解决小语种领域缺乏标注数据问题,为小语种的研究提供新思路。
1 小语种基础分析工具研究现有的主流语言自然语言处理技术基本以词为分析粒度,由于小语种领域缺乏分词方法,导致相关技术很难在小语种领域进行应用。已有的新词发现算法大致有两种,一种是基于构词法的算法,也叫做基于规则的算法;另一种是基于统计的算法。基于规则的算法基于语言特征构建的规则库,规则的构建过程往往比较复杂,并且模型的迁移能力比较差。对于小语种而言,规则库的构建需要较高的学习成本。基于统计的算法通常为无监督的,利用n-gram或者类似的算法,计算不同gram的相关信息,设置阈值提取符合条件的词。但是,该类方法需要首先完成对小语种的分词,字符级的词串构建方法很容易出现误差。
本章从小语种的领域性问题出发,首先研究小语种的形态切分问题,利用小语种的语言构成特点,通过指针神经网络实现小语种的分词算法。在此基础上研究了小语种的领域计算问题,在形态切分之后尝试采用基于统计方法,计算小语种的领域新词。
1.1 基于指针网络的小语种形态切分算法
小语种领域由于缺乏分词技术的研究,使用形态切分方法就成为将其文本进一步分割的技术手段,在之前的工作中,形态学分割被视为序列中每个项目的分类问题,使用集合 {b,m,e,s} 来标记序列,发现这种方法有一个标签依赖的问题,损害了训练和性能。为了解决这个问题,提出使用较少的独立标签来建模形态分割任务。首先应用指针神经网络,使用缩放注意力机制对其进行修改,并使用编码器的隐藏状态,这与原始的指针神经网络不同。本文在维吾尔语的数据上进行了实验,其结果如表1所示。
与之前的基线和SoTA维吾尔语形态学分割模型相比,我们获得了更高的召回率和F1值。结果表明,本方法对分割任务的新处理方法是可行的,并且可以实现一个更健壮的模型。新方法可以移植到其他的切分或标记任务,例如英语、乌尔都语和土耳其语的中文切分或形态学切分。结合之前方法和本方法,可以实现更高性能和鲁棒性的集成模型。
1.2 基于统计方法的小语种新词发现算法
基于上述的形态切分研究,将在中文上的新词发现算法1,2应用到了小语种领域。对于任意小语种,首先通过形态切分的方法建立小语种词表,并建立词表的倒排索引。通过计算词频、左右信息熵和互信息三个指标对词表中各词计算权重,并根据上下文和权重计算的结果进行连接和筛选。
本文方法在藏语和维吾尔语上进行了实验,其中对于藏语的处理主要是以藏语的音节分隔符“་”对藏语语料进行分割。实验结果如表2所示。
从使用本文方法在藏语和维吾尔语上进行新词发现得到的结果和对应的中文翻译可以看到,本文方法所得效果基本为相应语料的新词,证明了方法的适用性。
2 小语种自然语言处理任务研究
针对小语种领域缺乏标注数据集的问题,分别从跨语言学习和利用开源数据集两种方法做了研究,在跨语言学习方面,根据多语言预训练模型的研究方法,通过扩展词串做了优化;在开源数据利用方面,从翻译问题和命名实体识别问题做了研究。
2.1 基于词串的小语种多语预训练语言模型
小语种多语预训练语言模型是一种利用主流语言的标记数据,解决小语种缺乏语料库的方法,为了提高模型的跨语言学习能力,对预训练部分进行了优化。
2.1.1 词表优化生成方法
本文认为,将高频词和常用词作为预训练词表的一部分,可以有效提升预训练语言模型的多语学习能力。这里将语言分为两类,一类为本身已经被空格切分的语言,不需要额外的分词方法,直接根据空格切分,然后使用高频词构建词表;另一类是没有被空格切分的语言,首先要进行分词才能采取相应的指标选择词表,针对这类语言,提出一种无监督的多种语言的词表构建方法,从字符级维度计算并抽取其词串。
对于未被空格分隔的文S,设S=w1,w2,…,wn, 首先将其按字符拆分,然后利用N-gram的方式,分别计算每个gram 的左右信息熵、词频和凝固度,得到一个候选元组T=,然后对于元组中的指标设置相应的选择阈值,即可得到该语言的预训练词表。
不同于mBert在构建预训练词表时直接将文本拆分到字符维度,然后利用WordPiece的方法计算并构建训练数据,本文的预训练模型在训练之前,需要先从文本中,根据预先构建好的词表提取出相应的单词和短语。按照完整的单词作为模型输入,针对其他部分,仍然采用WordPiece的方法,防止太多的未登录词造成严重的稀疏。
2.1.2 预训练语言模型实验
为了证明本方法可以提高预训练语言模型在对多语言的学习能力,在阿拉伯语和中文上进行了对比实验。根据mBert的训练步骤,同样从wiki数据上收集了中文和阿拉伯的文章数据作为预训练数据,经过预处理后共采用600MB 的阿拉伯数据和700MB的中文文章数据作为训练样本。其中阿拉伯语提前计算每个单词的词频,选取词频较高的单词放入到预训练词表中。对于中文,按照上述分词方法构建元组,并根据阈值选择合适的gram。
这里将模型在分类任务上的准确率作为评测模型性能的指标,根据ElSahar等1的工作,选取了三个阿拉伯语的情感分类数据集(包含酒店评论数据、电影评论数据和产品评论数据)作为实验数据。所有模型都在服务器上训练100万steps。其中 BertTiny 为使用原始Bert-Tiny的配置和mBert的训练词表,重新训练的mBert-Tiny.mBert是google发布的12层多语言预训练模型 2。GWBERT为本文词表训练的2层多语言预训练模型。
由于计算设备的限制,选择Bert-Tiny作为实验的基础模型,其中除了预训练词表之外,模型的所有参数与Bert-Tiny一致。其实验结果如表3和表4所示。
多语言模型在单语言上仍然有很好效果,模型分类准确率较mBert更高。而在多语上的实验也表明,通过优化预训练词表的方式可以提高多语预训练模型的跨语言学习能力,以及模型在其他语言上的自然语言处理任务的性能。
2.2 基于外部知识的小语种命名实体识别算法
命名实体识别算法可以快速从数据中提取相关主体,对信息抽取和文章的快速理解很有帮助。但是,对于命名实体识别这类领域属性强的自然语言处理任务,小语种中基本不存在相应的训练数据集。因此,本节从数据集构建方法出发,以阿拉伯语为例,首先提出了一种仅利用字典的命名实体识别数据库构建方法,在此基础上利用预训练语言模型和外部知识,设计并实现了小语种的命名实体识别模型。
2.2.1 命名实体识别数据集构建方法
本文提出的命名实体识别数据集构建方法如图1所示,主要分为文档选取、字典构建和语料库注释三个过程。首先根据领域选择合适的在线网站收集数据,利用词典和形态切分方法将数据进行分词和标注;然后采用在线双语词典的方式对数据进行标注和解释,为了保证所有的数据都是正确的,只匹配与领域统一规则相匹配的词作为训练数据集。
为了验证我们的语料库,随机挑选了300个句子并让一名领域专家帮助判断数据集标注的是否正确,其结果如表5所示。
从表中可见,在选定子集的149个实体中,有117个识别成功且有超过90%的正确率,证明构建数据集的算法有效。
2.2.2 命名实体识别模型
缺乏训练数据及语言形态问题,是小语种命名实体识别的两大难点。在完成了数据集构建的基础上,提出一种基于预训练语言模型的命名实体识别方法,其模型架构如图2所示。
考虑到小语种训练样本过少的问题,利用开源阿拉伯医学网站的数据作为预训练数据,并认为,在预训练阶段加入少量领域数据也可以提升模型对领域问题的性能。这里使用AraBERTv0.1的初始权重,并采用医学数据继续了预训练步骤,然后利用上述数据集对模型进行微调。实验表明,本文方法可以得到最好的实验结果(如表6所示)。
2.3 基于互联网平行语料的小语种智能翻译算法
最后将研究聚焦于小语种的翻译问题,虽然当前的研究可以解决小语种领域的大部分自然语言处理问题,但是,小语种的翻译技术仍然是了解小语种文化背景,与小语种居民进行交流的重要技术手段。
基于深度学习的神经机器翻译已经成为机器翻译的主流,在大样本语言翻译上已经取得了十分优异的效果,但由于其完全依赖数据驱动,语言语法上不依赖规则,不具有可解释性,所以在平行语料匮乏的小样本翻译上,依然效果一般;而统计翻译方法在出现未登录词、输入语句不规范和词表有限的情况下并不具有足够的泛化能力,翻译结果并没有与神经翻译方法相当的可读性;更多采用人工翻译的方法来满足小语种翻译工作的需求,但是人工和时间的成本代价巨大。为了充分利用当前互联网资源和在主流语言上的研究成果,提出了一种利用网络爬虫自动采集并构建对齐语料的方法,通过不断增加新的训练数据,提高模型的翻译效果。总体框架图如图 3 所示。
2.3.1 数据集自动构建方法
以藏语为例。国内的一些新闻网站拥有中文版和藏语版,如人民网、中国藏族网通等。一些新闻稿会同时在中文版和藏语版上发布,这为对齐预料的构建带来了契机。但是,由于新闻网站的新闻并不是一一对应关系,相同的新闻也并未标注其翻译来源,给对齐语料的构建带来了很大困难。
为解决上述问题,提出利用辅助翻译工具进行对齐的翻译语料构建方法。首先将新闻标题翻译为中文并将其与发布时间段接近的中文新闻进行对比,得到相似度最高的作为候选文章。由于藏语版新闻并不是将中文版一句一句的翻译过去,两篇文章可能会出现段落数和句子数不同、结构不一致的情况。为了保证数据集的质量,在得到两篇相似的文章后,需要进一步利用辅助翻译工具对文章一层层筛选,得到相似度较高的句子,加入到对齐数据集中。
2.3.2 小语种翻译实验
采用翻译模型中常用transformer模型作为基础模型,其中汉语使用NLPIR-ICTCLAS作为分词工具,subword作为BPE子词切分工具,小语种 BPE词表规模为8000,汉语为13000,翻译模型使用了Fairseq工具,语料库分割如表7所示,最终结果为藏译汉BLEU值30.33,维译汉BLEU值24.39。
由于这些双语网站仍然在不断产生新的训练数据,且新出现的语料中存在一些新词和新的语义信息,为了降低持续学习中灾难性遗忘的问题,在使用新数据对模型进行微调时也加入了部分旧数据。在之后的研究过程中,我们将继续对模型进行微调;同时利用当前的翻译模型作为辅助翻译工具,在不断迭代中提高对小语种的翻译效果。
3 结束语
本文面向小语种领域缺乏基础分析工具和研究数据的问题,首先提出了小语种领域的形态切分方法,并将中文的新词发现算法在多个小语种中进行了应用,为其他自然语言处理算法在小语种领域的使用提供了思路。针对小语种领域缺乏标注数据的问题,首先从多语预训练语言模型进行研究,通过无监督的多语言词串构建和选择方法,提供了预训练模型对小语种的跨语言学习能力,可以充分利用主流语言的数据集提高模型对小语种在自然语言处理下游任务上的性能。同时在小语种机器翻译问题和医疗领域的命名实体识别领域分别提出了不同的利用开源数据集提升模型效果的方法,为之后对其他任务的研究提供了研究思路。
本站部分资源搜集整理于互联网或者网友提供,仅供学习与交流使用,如果不小心侵犯到你的权益,请及时联系我们删除该资源。