搜索 OpenAI Rules & Tips
1. 遵守中国大陆相关法律法规
2. 请勿滥用 AI 答案作为跟帖
3. 推荐:Free ChatGPT List

AI 机翻与人工翻译比较

查看: 2019|回复: 1
3
羚芈 发表于 2023-5-1 21:56:36
在隔壁看到有 帖子 机翻过来不够通顺,于是人工翻译了一下。考虑到有传闻此次 AI 迭代对于翻译行业有较大冲击,便又拿来测试了一下 Claude 和 ChatGPT 的机翻和润色,旨在探究 AI 输出翻译的准确性和对人工翻译的启示。按原文——AI 翻译比较——人工翻译分享如下,以免影响读者独立思考;分析恐有不够专业之处,还望指正。此外本文是以翻译为基础的,正常理解外文而不用翻译的情况不在讨论范围。

原文(建议认真阅读后再看 AI 的结果,加粗为易错之处):

In academic literature, AI researchers often call these mistakes "hallucinations." But that label has become controversial as the topic becomes mainstream because some people feel it anthropomorphizes AI models (suggesting they have human-like features) or gives them agency (suggesting they can make their own choices) in situations where that should not be implied. The creators of commercial LLMs may also use hallucinations as an excuse to blame the AI model for faulty outputs instead of taking responsibility for the outputs themselves.

Still, generative AI is so new 一 that we need metaphors borrowed from existing ideas to explain these highly technical concepts to the broader public. In this vein, we feel the term "confabulation," although similarly imperfect, is a better metaphor than "hallucination." In human psychology, a "confabulation" occurs when someone's memory has a gap and the brain convincingly fills in the rest without intending to deceive others. ChatGPT does not work like the human brain, but the term "confabulation" arguably serves as a better metaphor because there's a creative gap-filling principle at work, as we'll explore below.

Whether the GPT model makes a wild guess or not is based on a property that AI researchers call "temperature," which is often characterized as a "creativity" setting. If the creativity is set high, the model will guess wildly; if it's set low, it will spit out data deterministically based on its data set.


AI 翻译比较:红字,为横向比较二者有较大差异之处;黄字,二者均有误差之处。蓝色,纵向前后比较。由于后几次指令后变化不大,于是统一整合到第二次输出。

图片1.jpg
图片2.jpg

小结:

机翻总体的措辞不够准确,过程中单独让 AI 着重理解“hallucination”“confabulation”等词但基本没有改变;代词指代不够明确,输出的意思也会混淆;无法处理较复杂的句型,英语语言逻辑难以改为中文的逻辑;润色的过程中会有漏译、错译的地方。但相对传统的机器翻译有所改善,能够修正一些翻译腔(so that 句型)。两项 AI 各有优劣,但综合看均接近翻译初学者 。

人工翻译
  1. 在学术文献中,AI 研究员通常称这类错误是“向壁虚造”。但随着人工智能的话题成为主流,这样的标签备受争议,一些人认为它赋予了 AI 人性化的特点,或者给予了它们自行决定的权利,而这些权限本不该为 AI 所拥有。商业性的大型语言模型的建立者也同样用杜撰来责难 AI 模型生成错误的内容,自己也得以开脱。

  2. 目前,生成式 AI 的出现为时不久,我们需要现存于理念的隐喻来阐释这些高技术概念,以更好推广。基于此,我们认为,“无稽之谈”(confabulation)虽与“向壁虚造”类似,也并非完美,但仍好于后者。人类心理学中,记忆出现空缺,大脑于是自信地为其填充内容,尽管无意地欺骗别人,但也做出无稽之谈。正如我们紧接着要研究的那样,由于在 ChatGPT 运行时也会存在有意义地填补空缺原则,所以尽管它的运行并不类似大脑,但“无稽之谈”有理由是更好的隐喻。

  3. AI 研究员使用“温和度”一词来称创造性这一属性,来判断 GPT 模型是否在肆意猜测。创造性设置得强,模型就会胡猜乱想;设置得低,输出的信息就完全由设定的数据决定。
复制代码

Tips:
  • 追求用词准确方面,hallucination 有妄想,毫无事实根据的想法之义,结合上下文往这方面措辞也比较合适。confabulation 同样是虚构,但是无意识的,并非有意的,所以选择了相对客观的“无稽之谈”,和向壁虚构、杜撰、臆造等一样都是没有根据地捏造,但后几个的动作性较强,主观意识性也相对强一点,由此做出区分。且两个单词均是较高级的词汇,因此对应采用成语。
  • 温和度似乎比温度好。温和度对应AI 胡编乱造的狂野性(wildly),温度更倾向冷热程度这种外在客观。或者可以参考脾性、性情。
  • 句型处理上,英文括号里的内容合并相近语义,转为更流畅的短句。避免了 so that 句型的翻译腔,且 new 正说反译作“为时不久”四字来把握语言节奏。第二段人脑虚构的过程的时间状语按中文语序前置,结尾的因果关系按中文语序调整。
  • 指代清楚上,第一段的 the topic 指向 AI,themselves 指向 LLM 建立者,避免了歧义。


潦草总结
AI 翻译相对于传统机器翻译进步不算太大,若成段成篇地翻译,误差仍较大,人工审阅更费精力。人工翻译除了个别措辞和长难句式比较费时,转为符合中文语言习惯的译文并不算难。因此,AI 辅助翻译的方向或许在于帮助单独理解长难句,并给出多个翻译参考。例如,后尝试运用基于 GPT-3.5 模型的 ParaTrans,输入“如何理解 The creators of commercial LLMs may also use hallucinations as an excuse to blame the AI model for faulty outputs instead of taking responsibility for the outputs themselves. ”时能说明是建立者在逃避责任。参考译文有

商业法学硕士的开发者可能会借助幻觉作为借口,将 AI 模型提供的错误输出归咎于模型本身,而不是承担输出错误的责任。
商业法学硕士的创建者可能会利用幻觉为借口,将 AI 模型产生的错误输出归因于其自身,而不肯对错误输出负责。
商业法学硕士的开发者也可能会利用幻觉作为借口,把 AI 模型产生的输出错误归咎于模型自身,而不是承担责任。
商业法学硕士的创造者可以利用幻觉作为借口,将AI模型的错误输出归咎于模型自身,而不是承担责任。
商业法学硕士的开发者也可能会利用幻觉来为自己的错误输出寻找借口,而不是承认输出错误的责任。

根据参考最后译作“大型语言模型的创建者可能不肯对 AI 模型产生的错误输出负责,会利用“向壁虚构”作为借口,将过失归咎到模型身上。”
最后一段的第一句,也可参考 AI 给出的结果调整为“GPT模型是否肆意猜测取决于 AI 研究员所为称“温和度”的属性,它就是用来设置模型“创造力”等级的。”

因此,对于译者来说,AI 的到来并没有放低对这一职业高素养的要求,对于各种句型、逻辑差异仍要保持敏感;使用 AI 也是建立于完善自身翻译的基础上的,若直情径行,费时费力,结果也难遂人愿。
 楼主| 羚芈 发表于 2023-5-11 16:15:36
上次做的英译汉,这次拿一段汉译英作比较。依然是原文+AI翻译+人工翻译+总结。

卡拉肖克·林问泱打算用什么东西来,泱说他有一种用脉电光发火的技术,可以随时发出火来。卡拉肖克·林和族人一起观看了泱演示用脉电光发火的情形,非常惊奇。虽然林也觉得这项对未来生活意义重大的技术非常值得一,但还是有些舍不得“晶之目”,就说,如果在水里也能发出火来,那就可以

除了一些设定上的东西,整体还算常规文本。拿这一段出来在于,有很多重复的地方,如“换”“发火”,甚至是人名,英文比较强调精简;而且除了最后一大句有关联词(虽然、但、就、如果、那),前面的句子之间逻辑松散,而英文较重视逻辑。因此可以算是比较有分析性的文本。


红色:误译;黄色:不足;蓝色:变动。
image.png

可以看出,这次基于 GPT 的模型更胜一筹。在句义准确性、表达多样性、逻辑关联性、语言简洁性上能输出更好的结果。但修改仍是不可控的,Paratrans 尽管改正了第一句,但后两句的衔接断了,第三句也显得更冗长(也不能强行照第一版用定从连接,因为这一句已经有一个较长的定从了)。此外两者对于“换”和人名的翻译仍不够多样。


人工翻译
Lin asked Yang what would he give and Yang said his electric-pulse-driven skill can set off fire at any time. Lin and his clansmen were amazed by the technique after Yang's demonstration. He felt it difficult to part with the treasure notwithstanding he had convinced that was significant in their future life. Therefore, he said if the fire can be ignited in water, he would make the deal.

首句直接用的 give,在于上一段末已经提出要交换,因此无需再用 exchange,中间“值得一换”做了适当省略,最后的换用了 make the deal 做交易也用更普通的意思,跳出了单一具体的表达。“发火”只出现了一次,而非原文的三次;“晶之目”用的 the treasure 在于上下文有提,亦是避免重复。句式变换上,“他有一种......技术”变成了他的技术怎么样,避免了较长的定语从句,突出了客观事物(当然再补充一下可以此作交换,应该更能对应前面 what 的提问);舍不得前置于相信有价值,没有囿于中文结构,且突出了犹豫。


总结
AI 对于词语替换仍停留在近义词层面,综合语义达到上义词的能力尚不够强。但句式变换、语言简洁化的策略和逻辑把握上也有人类译员值得学习的地方。此外 Paratrans 修改后的解释对于写提示词和人工修改输出的方向也有一定启发。最后贴出两次 explanation:

  • The revised translation aims to maintain the original meaning of the Chinese text while providing a more natural and concise English version. The translation uses simple sentences and clear expressions to convey the ideas. In addition, the word "exchange" is used consistently instead of "change," which is a more accurate and appropriate term. The sentence structure is optimized to ensure that the meaning is clear and the flow is smooth.
  • We've made the language more concise by eliminating unnecessary repetition and restructuring some sentences. Additionally, we've used synonyms and varied expressions to avoid repetition while accurately conveying the meaning of the original text.
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则蛙先知 - AI 玩家社区 🚧

Build with for "make search easier" Copyright © 2013-2024. Powered by Discuz! GMT+8, 2024-4-26 20:21

快速回复 返回顶部 返回列表