0

0

谷歌开源首个「方言」数据集:让机器翻译更地道

PHPz

PHPz

发布时间:2023-04-08 10:51:04

|

1403人浏览过

|

来源于51CTO.COM

转载

虽然全中国的人都在说汉语,但具体到各地的方言却略有不同,比如同样是小巷的意思,「胡同」一开口就知道是老北京了,而到了南方则叫「弄」。

NeoAgent
NeoAgent

销售易推出的AI‑CRM智能体平台

下载

这种细微的地域性差异反应在「机器翻译」任务上,就会显得翻译结果不够「地道」,而目前几乎所有的机器翻译系统都没有考虑地区性语言(即方言)的影响。

而在世界范围内也存在这种现象,比如巴西的官方语言是葡萄牙语,跟欧洲的葡萄牙语之间也有一些地域性差异。

最近谷歌发布了一个全新的,可用于Few-shot Region-aware机器翻译的数据集和评估基准FRMT,主要解决方言翻译问题,论文发表在TACL(Transactions of the Association for Computational Linguistics)上。

图片

论文链接:https://arxiv.org/pdf/2210.00193.pdf

开源链接:https://github.com/google-research/google-research/tree/master/frmt

该数据集包括从英语到葡萄牙语和中文普通话的两个地区变体的专业翻译,源文档是为了能够详细分析感兴趣的现象,包括词汇上不同的术语和干扰术语。

研究人员探索了 FRMT 的自动评估指标,并在区域匹配和不匹配评分情景下验证了其与专家人工评估的相关性。

最后,为这项任务提出了一些基线模型,并为研究人员如何训练、评估和比较自己的模型提供指导建议,数据集和评估代码已开源。

Few-Shot泛化

大多数现代机器翻译系统都经过数百万或数十亿翻译样本的训练,输入数据包括英语输入句及其相应的葡萄牙语翻译。

然而,绝大多数可用的训练数据并没有说明翻译的地区差异。

鉴于这种数据稀缺性,研究人员将 FRMT 定位为few-shot翻译的基准,当给定每种语言不超过100个带标签的例子时,测量机器翻译模型识别出指定区域语言变体的能力。

机器翻译模型需要根据少量标记过的样本(即范例)中显示的语言模式,来识别出其他未标记训练样本中的相似模式。模型需要通过这种方式进行泛化,从而生成模型中没有明确指定区域的「地道」翻译结果。

图片

比如输入句子:The bus arrived,再给定几个巴西葡萄牙语的例子,模型应该能翻译出「O ônibus chegou」;如果给的样例是欧洲葡萄牙语,模型的翻译结果应该变为「O autocarro chegou」。

机器翻译的few-shot方法是很有研究价值的,能够以一种非常简单的方式来对现有系统中增加对额外区域语言的支持能力。

虽然谷歌目前发表的工作是针对两种语言的区域变体,但研究人员预测,一个好的方法将很容易适用于其他语言和区域的变体。

从原理上来说,这些方法也适用于其他语言差异现象,例如礼节和风格等。

数据收集

FRMT 数据集包括部分英文维基百科文章,来源于 Wiki40b 数据集,这些文章已经由付费的专业翻译人员翻译成不同的地区性的葡萄牙语和汉语。

图片

为了突出关键区域感知的翻译难题,研究人员使用了三个内容桶(content buckets)来设计数据集:

1. 词汇 Lixical

词汇桶主要关注不同地区在词汇选择上的差异,例如当把一个带有单词「bus」的句子分别翻译成巴西语和欧洲葡萄牙语时,模型需要能够识别出「ônibus」与「autocarro」的区别。

研究人员根据博客和教育网站手动收集了20-30个具有地区特色的翻译术语,并根据来自每个地区的母语志愿者的反馈对翻译进行过滤和审核。

根据得到的英语术语列表,从相关的英语维基百科文章(例如,bus)中提取出100个句子。再对普通话,重复上述相同的的收集过程。

图片

2. 实体 Entity

实体桶以类似的方式填充,涉及的人、位置或其他实体与某一特定语言所涉两个区域之一有着密切联系。

比如给定一个说明性的句子,如「In Lisbon, I often took the bus.」(在里斯本,我经常坐公共汽车。),为了正确地将其翻译成巴西葡萄牙语,模式必须能够识别出两个潜在的陷阱:

1)里斯本和葡萄牙之间更密切的地理关联可能会影响模型翻译的选择,从而帮助模型判断出应该翻译成欧洲葡萄牙语而非巴西葡萄牙语,即选择「autocarro」而不是「ônibus」。

2)用「巴西利亚」代替「里斯本」可能是一个比较简单的方式,对于同一个模式,对巴西葡萄牙语本地化其输出,即便翻译结果仍然很流畅,但也可能会导致不准确的语义。

3. 随机 Random

随机桶用于检查一个模型是否正确处理了其他不同的现象,包含从维基百科的featured和good)集合中随机抽取的100篇文章。

图片

系统性能

为了验证为 FRMT 数据集收集的翻译能够捕获特定区域的现象,研究人员对数据质量进行了人工评估。

来自每个相应区域的专家标注员使用多维质量度量(MQM)框架来识别和分类翻译中的错误:该框架包括一个分类加权方案,将识别出的错误转换成一个单一的分数,粗略地表示每句话的主要错误数量,即数值越小表示翻译越好。

对于每个地区,研究人员要求 MQM 评分者对来自他们所在地区的翻译和来自他们语言的其他地区的翻译进行评分。

例如,巴西的葡萄牙语评分员同时对巴西和欧洲的葡萄牙语译本都进行了评分,两个分数之间的差异表明语言现象的普遍性,即该语言变体是否可接受,而并非是另一种语言。

实验结果发现,在葡萄牙语和汉语中,评分者平均比匹配的译文中每个句子多发现大约两个主要错误,表明FRMT数据集确实能够捕获特定区域的语言现象。

虽然人工评估是确保模型质量的最佳方法,但其往往是缓慢且昂贵的。

因此,研究人员希望找到一个现成的自动度量指标,可以用来评估模型在基准中的性能,研究人员考虑选择使用 chrF,BLEU 和 BLEURT.

图片

根据 MQM 评估者对几个基线模型翻译结果的评分,可以发现 BLEURT 与人类判断具有最好的相关性,并且该相关性的强度(0.65 Pearson 相关系数,ρ)与标注者间一致性(0.70组内相关性)相当。

系统性能

文中评估了一些最近发布的、具有few-shot控制能力的模型。

基于 MQM 的人类评估,基线方法都表现出一定的localize葡萄牙语输出的能力,但是对于中文普通话,大多没有利用目标地区的知识来生成优秀的当地翻译结果。

在评估的基准中,谷歌的语言模型 PaLM 模型的性能最佳,为了使用 PaLM 生成针对区域的翻译,首先将一个有指导意义的提示输入模型,然后从中生成文本以填充空白。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

PaLM 仅通过一个例子就获得了很好的结果,在葡萄牙语方面,当增加到10个例子时,质量略有提高,考虑到 PaLM 是在无监督的情况下进行训练的,这种表现已经非常好了。

研究结果还表明,像 PaLM 这样的语言模型可能特别擅长记忆流畅翻译所需的特定区域的词汇选择。

图片

然而,在 PaLM 和人类之间仍然存在显著的性能差距。

参考资料:

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

0

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

1

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

0

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

3

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

1

2026.01.26

oppo云服务官网登录入口 oppo云服务登录手机版
oppo云服务官网登录入口 oppo云服务登录手机版

oppo云服务https://cloud.oppo.com/可以在云端安全存储您的照片、视频、联系人、便签等重要数据。当您的手机数据意外丢失或者需要更换手机时,可以随时将这些存储在云端的数据快速恢复到手机中。

1

2026.01.26

抖币充值官方网站 抖币性价比充值链接地址
抖币充值官方网站 抖币性价比充值链接地址

网页端充值步骤:打开浏览器,输入https://www.douyin.com,登录账号;点击右上角头像,选择“钱包”;进入“充值中心”,操作和APP端一致。注意:切勿通过第三方链接、二维码充值,谨防受骗

3

2026.01.26

Java Spring Security 与认证授权
Java Spring Security 与认证授权

本专题系统讲解 Java Spring Security 框架在认证与授权中的应用,涵盖用户身份验证、权限控制、JWT与OAuth2实现、跨站请求伪造(CSRF)防护、会话管理与安全漏洞防范。通过实际项目案例,帮助学习者掌握如何 使用 Spring Security 实现高安全性认证与授权机制,提升 Web 应用的安全性与用户数据保护。

25

2026.01.26

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

76

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
550W粉丝大佬手把手从零学JavaScript
550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.3万人学习

尚硅谷JavaScript高级视频教程
尚硅谷JavaScript高级视频教程

共48课时 | 14.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号