在隔壁看到有 帖子 机翻过来不够通顺,于是人工翻译了一下。考虑到有传闻此次 AI 迭代对于翻译行业有较大冲击,便又拿来测试了一下 Claude 和 ChatGPT 的机翻和润色,旨在探究 AI 输出翻译的准确性和对人工翻译的启示。按原文——AI 翻译比较——人工翻译分享如下,以免影响读者独立思考;分析恐有不够专业之处,还望指正。此外本文是以翻译为基础的,正常理解外文而不用翻译的情况不在讨论范围。
原文(建议认真阅读后再看 AI 的结果,加粗为易错之处):
In academic literature, AI researchers often call these mistakes "hallucinations." But that label has become controversial as the topic becomes mainstream because some people feel it anthropomorphizes AI models (suggesting they have human-like features) or gives them agency (suggesting they can make their own choices) in situations where that should not be implied. The creators of commercial LLMs may also use hallucinations as an excuse to blame the AI model for faulty outputs instead of taking responsibility for the outputs themselves.
Still, generative AI is so new 一 that we need metaphors borrowed from existing ideas to explain these highly technical concepts to the broader public. In this vein, we feel the term "confabulation," although similarly imperfect, is a better metaphor than "hallucination." In human psychology, a "confabulation" occurs when someone's memory has a gap and the brain convincingly fills in the rest without intending to deceive others. ChatGPT does not work like the human brain, but the term "confabulation" arguably serves as a better metaphor because there's a creative gap-filling principle at work, as we'll explore below.
Whether the GPT model makes a wild guess or not is based on a property that AI researchers call "temperature," which is often characterized as a "creativity" setting. If the creativity is set high, the model will guess wildly; if it's set low, it will spit out data deterministically based on its data set.
AI 翻译比较:红字,为横向比较二者有较大差异之处;黄字,二者均有误差之处。蓝色,纵向前后比较。由于后几次指令后变化不大,于是统一整合到第二次输出。
小结:
机翻总体的措辞不够准确,过程中单独让 AI 着重理解“hallucination”“confabulation”等词但基本没有改变;代词指代不够明确,输出的意思也会混淆;无法处理较复杂的句型,英语语言逻辑难以改为中文的逻辑;润色的过程中会有漏译、错译的地方。但相对传统的机器翻译有所改善,能够修正一些翻译腔(so that 句型)。两项 AI 各有优劣,但综合看均接近翻译初学者 。
人工翻译
- 在学术文献中,AI 研究员通常称这类错误是“向壁虚造”。但随着人工智能的话题成为主流,这样的标签备受争议,一些人认为它赋予了 AI 人性化的特点,或者给予了它们自行决定的权利,而这些权限本不该为 AI 所拥有。商业性的大型语言模型的建立者也同样用杜撰来责难 AI 模型生成错误的内容,自己也得以开脱。
- 目前,生成式 AI 的出现为时不久,我们需要现存于理念的隐喻来阐释这些高技术概念,以更好推广。基于此,我们认为,“无稽之谈”(confabulation)虽与“向壁虚造”类似,也并非完美,但仍好于后者。人类心理学中,记忆出现空缺,大脑于是自信地为其填充内容,尽管无意地欺骗别人,但也做出无稽之谈。正如我们紧接着要研究的那样,由于在 ChatGPT 运行时也会存在有意义地填补空缺原则,所以尽管它的运行并不类似大脑,但“无稽之谈”有理由是更好的隐喻。
- AI 研究员使用“温和度”一词来称创造性这一属性,来判断 GPT 模型是否在肆意猜测。创造性设置得强,模型就会胡猜乱想;设置得低,输出的信息就完全由设定的数据决定。
复制代码
Tips:
- 追求用词准确方面,hallucination 有妄想,毫无事实根据的想法之义,结合上下文往这方面措辞也比较合适。confabulation 同样是虚构,但是无意识的,并非有意的,所以选择了相对客观的“无稽之谈”,和向壁虚构、杜撰、臆造等一样都是没有根据地捏造,但后几个的动作性较强,主观意识性也相对强一点,由此做出区分。且两个单词均是较高级的词汇,因此对应采用成语。
- 温和度似乎比温度好。温和度对应AI 胡编乱造的狂野性(wildly),温度更倾向冷热程度这种外在客观。或者可以参考脾性、性情。
- 句型处理上,英文括号里的内容合并相近语义,转为更流畅的短句。避免了 so that 句型的翻译腔,且 new 正说反译作“为时不久”四字来把握语言节奏。第二段人脑虚构的过程的时间状语按中文语序前置,结尾的因果关系按中文语序调整。
- 指代清楚上,第一段的 the topic 指向 AI,themselves 指向 LLM 建立者,避免了歧义。
潦草总结
AI 翻译相对于传统机器翻译进步不算太大,若成段成篇地翻译,误差仍较大,人工审阅更费精力。人工翻译除了个别措辞和长难句式比较费时,转为符合中文语言习惯的译文并不算难。因此,AI 辅助翻译的方向或许在于帮助单独理解长难句,并给出多个翻译参考。例如,后尝试运用基于 GPT-3.5 模型的 ParaTrans,输入“如何理解 The creators of commercial LLMs may also use hallucinations as an excuse to blame the AI model for faulty outputs instead of taking responsibility for the outputs themselves. ”时能说明是建立者在逃避责任。参考译文有
商业法学硕士的开发者可能会借助幻觉作为借口,将 AI 模型提供的错误输出归咎于模型本身,而不是承担输出错误的责任。
商业法学硕士的创建者可能会利用幻觉为借口,将 AI 模型产生的错误输出归因于其自身,而不肯对错误输出负责。
商业法学硕士的开发者也可能会利用幻觉作为借口,把 AI 模型产生的输出错误归咎于模型自身,而不是承担责任。
商业法学硕士的创造者可以利用幻觉作为借口,将AI模型的错误输出归咎于模型自身,而不是承担责任。
商业法学硕士的开发者也可能会利用幻觉来为自己的错误输出寻找借口,而不是承认输出错误的责任。
根据参考最后译作“大型语言模型的创建者可能不肯对 AI 模型产生的错误输出负责,会利用“向壁虚构”作为借口,将过失归咎到模型身上。”
最后一段的第一句,也可参考 AI 给出的结果调整为“GPT模型是否肆意猜测取决于 AI 研究员所为称“温和度”的属性,它就是用来设置模型“创造力”等级的。”
因此,对于译者来说,AI 的到来并没有放低对这一职业高素养的要求,对于各种句型、逻辑差异仍要保持敏感;使用 AI 也是建立于完善自身翻译的基础上的,若直情径行,费时费力,结果也难遂人愿。 |