大型语言模型对编码来说是错误的吗?

WBOY

发布时间：2023-06-05 12:34:28

1388人浏览过

来源于51CTO.COM

转载

当目标是准确性、一致性、精通游戏或找到一个正确答案时，强化学习模型会击败生成式人工智能。

大型语言模型，如GPT-4，令人瞩目，因为它们可以生成高质量、流畅自然的文本，极具说服力。可悲的是，炒作也是如此:微软的研究人员屏气地将微软资助的OpenAI GPT-4模型描述为展示“人工通用智能的火花”。

当然，除非微软指的是产生幻觉的倾向，生成的错误文本肯定是错误的。GPT还不擅长下棋和围棋等游戏，不擅长数学，编写的代码可能有错误和微妙的漏洞。

这并不意味着大型语言模型都是炒作。我们需要一些新的角度来讨论生成式人工智能（GenAI），而不是过分夸大它与其他技术的区别。

正如IEEESpectrum的一篇文章所详述的那样，一些专家，例如OpenAI的IlyaSutskever，认为添加带有人类反馈的强化学习可以消除LLM幻觉。但是其他人，比如Meta的YannLeCun和GeoffHinton(最近从Google退休)，认为大型语言模型中更根本的缺陷在起作用。两人都认为，大型语言模型缺乏非语言知识，而非语言知识对于理解语言所描述的潜在现实是至关重要的。

Diffblue公司的CEO Mathew Lodge在一次采访中指出，存在一种更为优秀的解决方案。他说，“小型、快速、运行成本低廉的强化学习模型，在从玩游戏到编写代码的各种任务中，都能轻松击败拥有千亿参数的大型语言模型。”

我们是否在错误的地方寻找人工智能黄金?

Lodge所说的是，生成式人工智能一定有其应用场景，但我们也许正试图将其强行引入不太适合的强化学习领域。以游戏为例。

Levy Rozman, 一位国际象棋大师，发布了一个他与 ChatGPT（聊天式人工智能）对弈的视频。这个模型做出了一系列荒谬和非法的动作，包括捕捉自己的棋子。最好的开源国际象棋软件(Stockfish，它根本不使用神经网络)让ChatGPT在不到10步的时间里击败，因为大型语言模型找不到合法的走法。这证明了大型语言模型远远不能达到通用人工智能的宣传，而这并不是一个孤立的例子。

由于其强化学习算法的驱动，谷歌AlphaGo是当前围棋人工智能中表现最佳的。强化学习的工作原理是为一个问题生成不同的解决方案，尝试它们，使用结果来改进下一个建议，然后重复这个过程数千次以找到最佳结果。

在AlphaGo的例子中，人工智能会尝试不同的走法，并预测这是否是一个好走法，以及它是否有可能从这个位置赢得比赛。它使用反馈来“跟踪”有希望的移动序列，并生成其他可能的移动。其效果是对可能的移动进行搜索。

这个过程被称为概率搜索。虽然招式繁多，你不需要尝试所有，但可以耐心搜索可能找到最佳招式的领域。这对于玩游戏来说非常有效。AlphaGo过去曾击败过围棋大师。AlphaGo并非万无一失，但它目前的表现比当今最好的大型语言模型还要好。

概率与准确性

支持者相信，即使有证据表明大型语言模型的表现明显落后于其他类型的人工智能，它们也会逐渐变得更好。然而，Lodge指出，我们需要理解为什么他们能够在这种任务中表现得更优秀，如果我们认同这个观点。他继续说道，在这个问题上出现困难的原因是，没有人能够准确预测GPT-4对于特定提示的反应会带来怎样的结果。这种模式是人类无法解释的。他认为，这就是“‘即时工程’不存在的原因。”他强调，对于人工智能研究人员来说，证明大型语言模型的“涌现特性”存在也是一场斗争，更不用说预测它们了。

可以说，最好的论证是归纳法。GPT-4在一些语言任务上比GPT-3更好，因为它更大。因此，更大的模型会更好。

Lodge的看法是GPT-4仍需克服GPT-3所面临的挑战，因此存在一个问题。其中之一便是数学；虽然GPT-4在加法运算方面比GPT-3更优秀，但它在乘法和其他数学运算方面仍然存在瓶颈。

增加语言模型的大小并不能神奇地解决这些问题，据OpenAI称更大的模型并不是解决方案。原因归结为大型语言模型的基本性质，正如OpenAI论坛所指出的那样:“大型语言模型本质上是概率性的，并且通过根据他们在训练数据中观察到的模式生成可能的输出来运行。在数学和物理问题中，找到唯一的正确答案的可能性很小。”

人工智能过程中，由强化学习驱动的方法能够更准确地产生结果，因为这是一个追求目标的过程。强化学习通过迭代寻找最接近目标的最佳答案，以达到预期的目标。Lodge指出，大型语言模型课程“并不是为了迭代或寻找目标而设计的。它们的设计目的是给出‘足够好’的一次或几次回答。”

Delphi语言参考中文WORD版

本文档主要讲述的是Delphi语言参考；Delphi是一种结构化、面向对象，类型强健，编译执行的高级语言,其object pascal的语法规范具有易读性好、编译快速、多单元的模块化程序设计等优点。 Delphi技术Borland的组件框架和快速开发环境。大多数情况下，本语法指引假设你使用的是Borland的开发工具。希望本文档会给有需要的朋友带来帮助；感兴趣的朋友可以过来看看

下载

“一次性”答案是模型产生的第一个答案，它是通过预测提示中的一系列单词而获得的。"Few-shot learning" involves providing additional samples or cues to the model to assist it in generating better predictions.。大型语言模型通常也会加入一些随机性(也就是说，它们是“随机的”)，以增加更好的回答的可能性，所以他们会对同样的问题给出不同的答案。

并不是说大型语言模型世界忽视了强化学习。GPT-4结合了“强化学习与人类反馈”(RLHF)。人类操作员训练后的核心模型更倾向于某些答案，但从根本上来说，这并不会改变模型首先生成的答案。Lodge指出，大型语言模型可能会提供以下选项来填补句子“韦恩•格雷茨基喜欢冰...”的空缺。

1.韦恩•格雷茨基喜欢冰淇淋。

2.韦恩•格雷茨基喜欢冰球。

3.韦恩•格雷茨基喜欢冰上钓鱼。

4.韦恩•格雷茨基喜欢滑冰。

5.韦恩•格雷茨基喜欢冰酒。

人工操作员对答案进行排序，可能会认为加拿大传奇冰球运动员更喜欢冰球和滑冰，尽管冰淇淋有着广泛的吸引力。人类的排名和更多的人类写的回答被用来训练模型。请注意，GPT-4并没有假装准确地知道韦恩•格雷茨基的偏好，只是在提示下最可能的完成。

最后，大型语言模型的设计并不是高度准确或一致的。在准确性和确定性行为之间存在一种权衡，以换取普遍性。对Lodge来说，所有这些都意味着，在大规模应用人工智能方面，强化学习击败了生成式人工智能。

将强化学习应用于软件

软件开发呢?正如我所写的，GenAI已经为那些使用GitHubCopilot或AmazonCodeWhisperer等工具提高生产力的开发人员提供了机会。这不是猜测——它已经发生了。这些工具可以预测接下来可能出现的代码，它们根据集成开发环境中插入点前后的代码来进行预测。

事实上，正如VisualStudio杂志的DavidRamel所言，最新版本的Copilot已经生成了61%的Java代码。对于那些担心这会减少软件开发人员工作的人，请记住，这些工具需要勤奋的人工监督来检查完成情况，并对其进行编辑，以使代码正确编译和运行。自IDE诞生之初，自动补全功能就一直是IDE的主要功能，而Copilot和其他代码生成器使它变得更加有用。大规模的自主编码不同，实际上需要编写61%的Java代码。

然而，强化学习可以进行精确的大规模自主编码，Lodge说。当然，他这么说是出于既得利益:2019年，他的公司Diffblue发布了基于强化学习的商业单元测试编写工具Cover。Cover在没有人工干预的情况下编写完整的单元测试套件，使大规模自动化复杂的、容易出错的任务成为可能。

Lodge有偏见吗?绝对的。他有许多经验证明强化学习在软件开发中胜过GenAI的信念是正确的。如今，Diffblue使用强化学习来搜索所有可能的测试方法的空间，为每个方法自动编写测试代码，并在编写的测试中选择最佳测试。强化学习的奖励函数以多种标准为基础，包括测试覆盖率和美学，其中之一就包括符合人类编写的编码风格。该工具平均在一秒钟内为每种方法创建测试。

Lodge认为，如果目标是为一个没有人理解的程序自动编写10,000个单元测试，那么强化学习是唯一真正的解决方案。“大型语言模型无法竞争;人类没有办法有效地监督它们，并在这种规模上纠正它们的代码，使模型更大、更复杂并不能解决这个问题。”

结论:大型语言模型最强大的地方在于它们是通用语言处理器。他们可以完成没有受过明确训练的语言任务。这意味着他们可以在内容生成(文案)和许多其他事情上做得很好。Lodge强调:“但这并不能使大型语言模型成为人工智能模型的替代品，人工智能模型通常基于强化学习，后者更准确、更一致，而且可以大规模使用。”

如何制作幼儿园绘本故事利用ChatGPT与DALL-E3组合创作

如何写出具有哲理深度的深夜食堂日记利用Claude捕捉生活碎片中的逻辑感

如何写出具有专业厚度的职场导师评价利用Claude体现客观且有建设性的建议

Recraftai怎么生成矢量插画_Recraft输出SVG可编辑文件教程

如何零基础自制一款智能家居控制小程序利用Cursor引导全流程代码编写

相关专题

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

2026.02.28

Golang 性能分析与运行时机制：构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面，深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略，并结合实际案例剖析 Go 程序的运行时行为，帮助开发者掌握构建高性能应用的关键技能。

2026.02.28