一棵 LLM 进化树与一份 LLM 最佳实践指南

虫子 · 发表于 2023-4-28 17:20:35

来自@Jingfeng Yang 发布的推文，分享了其参与撰写的一篇名为 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond 的论文，我用 Google 翻译机翻通读了一遍，里面不少干货，这里挑一点有意思的图解内容分享。

图片注释：这张 LLM 的进化树追溯了近年来语⾔模型的发展，并突出了⼀些最著名的模型。同⼀分⽀上的模型具有更紧密的关系。基于 Transformer 的模型以灰⾊显⽰：蓝⾊分⽀中的仅解码器模型、粉⾊分⽀中的仅编码器模型和绿⾊分⽀中的编码器-解码器模型。模型在时间轴上的垂直位置代表它们的发布⽇期。开源模型⽤实⼼⽅块表⽰，⽽闭源模型⽤空⼼⽅块表⽰。右下⻆的堆积条形图显⽰了来⾃不同公司和机构的模型数量。

◉ Decoder-only 模型逐渐主导了 LLM 的发展。在 LLM 发展的早期阶段， decoder-only模型不如encoder-only和encoderdecoder模型流⾏。然⽽，在 2021 年之后，随着改变游戏规则的 LLMGPT-3 的推出，仅解码器模型经历了显着的繁荣。与此同时，在 BERT 带来的初期爆发式增⻓之后，encoder-only 模型逐渐开始淡出市场。

◉ OpenAI 始终保持其在 LLM 领域的领先地位，⽆论是现在还是未来。其他公司和机构在开发可与 GPT-3 和当前的 GPT-4 相媲美的模型⽅⾯正在努⼒追赶 OpenAI 。这⼀领先地位可能归因于 OpenAI 对其技术道路的坚定承诺，即使它最初并未得到⼴泛认可。

◉ Meta 对开源 LLM 做出了重⼤贡献，并促进了 LLM 的研究。在考虑对开源社区的贡献时，尤其是那些与 LLM 相关的贡献时，Meta 脱颖⽽出，成为最慷慨的商业公司之⼀，因为 Meta 开发的所有 LLM 都是开源的。嗯，给小扎 👍🏻

◉ LLMs 表现出封闭采购的趋势。在 LLM 发展的早期阶段（2020 年之前），⼤多数模型都是开源的。然⽽，随着 GPT-3 的推出，公司越来越多地选择闭源他们的模型，例如 PaLM、LaMDA 和 GPT-4。因此，学术研究⼈员就 LLM 培训进⾏实验变得更加困难。因此，基于 API 的研究可能成为学术界的主要⽅法。

◉ 编码器-解码器模型仍然很有前途，因为这种类型的架构仍在积极探索中，⽽且其中⼤部分是开源的。Google 对开源编码器-解码器架构做出了重⼤贡献。然⽽，decoder-only 模型的灵活性和通⽤性似乎让 Google 在这个⽅向上的坚持变得不那么有希望了。

文中提到：在信息检索 (IR) 任务中，LLM 尚未得到⼴泛利⽤。⼀个主要原因是 IR 任务在根本上与其他任务不同。没有⾃然的⽅法可以将数以千计的候选⽂本转换为 LLM 所需的少量 / 零样本形式。这也许就是王小川：我们希望做一个带有搜索增强的大模型的动机吧。

我在上一篇记一次大模型测试对比，Google Bard 完胜，胜在搜索增强也分享了这方面的感受，Google 的回答速度明显比其它大模型吞吞吐吐的延迟要快很多，这或许就得益于这方面的努力。所以，我提出当前的一个使用偏向，即信息检索的场景不要依赖大模型，而在文本生成的场景则可以接受和使用。文章也指出：在不能接受⾼延迟的场景中，⼤型 LLM 可能不合适。例如，可扩展性在许多信息检索应⽤程序中⾄关重要。要在⽹络上部署信息检索系统，搜索引擎需要⾮常有效的推理系统才能发挥作⽤。 InstructGPT davinci v2 模型的理想去噪推理时间为每个请求 0.21 秒，这对于⽹络搜索引擎来说太慢了。

一星独落天涯 · 发表于 2023-6-28 16:16:55

ChatGPT打开了一个广大的想象空间，但是仍然需要向前几步才能到达。

一棵 LLM 进化树与一份 LLM 最佳实践指南

浏览过的版块