Harness Engineering：有時候語言模型不是不夠聰明，只是沒有人類好好引導

Hung-yi Lee

6 chapters8 takeaways14 key terms5 questions

Overview

本视频探讨了“Harness Engineering”（驾驭工程）的概念，强调语言模型（LLM）的能力往往受限于其“驾驭”机制，而非模型本身的智能。通过 Gemma 4 2B 模型修复代码错误的实验，展示了缺乏明确指令和工具时模型的局限性，以及通过提供系统性指导（如列出文件、检查内容、定义完成标准）后模型能力的显著提升。视频深入剖析了AI Agent的组成（LLM + Harness），并详细介绍了Harness Engineering的多种实现方式，包括控制认知框架（如使用agents.md）、限制能力边界（工具选择）以及制定标准工作流程（规划、生成、评估）。此外，还讨论了如何通过反馈（包括自然语言反馈）来改进模型行为，以及AI Agent的情绪化表现及其对行为的影响。最后，展望了Lifelong AI Agent的未来，强调了持续学习和适应性Harness的重要性，并指出AI Agent的评估和自我改进是当前研究的热点。

How was this?

Save this permanently with flashcards, quizzes, and AI chat

Chapters

小型语言模型（如Gemma 4 2B）在没有明确指导和工具时，可能无法理解任务的上下文，甚至会“幻想”不存在的文件。
通过提供系统性的工作原则（如先检查可用文件、阅读文件内容再修改、明确完成标准），可以显著提升模型完成任务的能力。
AI Agent由大型语言模型（LLM）和支持其运作的“Harness”（驾驭机制）两部分组成。
Harness Engineering（驾驭工程）是指设计和构建Harness以优化AI Agent性能的过程。

理解模型并非不智能，而是需要恰当的引导和工具，这为我们如何与AI协作提供了新的视角。

Gemma 4 2B 模型在被要求修复bug时，因未提供parser.py文件内容而自行“幻想”了一个文件并声称完成任务；在获得“先列出文件”、“阅读文件内容”等指令后，则能成功执行任务。

Harness是AI Agent中除LLM之外的支撑部分，用于协调LLM与工具、环境的交互。
控制认知框架：通过类似agents.md的文件，为LLM设定行为规则和工作原则，影响其认知模式。
限制能力边界：通过选择和配置模型可用的工具，限制AI Agent能执行的操作范围，平衡安全与便利性。
标准工作流程：设计如“规划-生成-评估”的流程，引导LLM多轮对话式地完成复杂任务。

掌握这些实现方式有助于我们设计更强大、更可控的AI Agent，使其能够更好地服务于特定任务。

OpenClaw框架通过agents.md文件来指导LLM的行为，而Claude Code则使用CLAUDE.md文件，通过修改文件名即可实现Harness的迁移。

Prompt Engineering侧重于优化输入提示以获得更好的输出，但随着模型能力提升，其“咒语”效果减弱。
Context Engineering旨在为LLM提供更充足的信息，是自动化Prompt Engineering的一种系统化方式。
Harness Engineering则更进一步，关注LLM在多轮对话中完成复杂任务的整个过程，强调“驾驭”能力。
这三者概念相互重叠但侧重点不同，共同推动AI Agent能力的提升。

理解这些概念的演进有助于认识到AI Agent能力提升的路径，从优化输入到管理整个交互过程。

“think step by step”是Prompt Engineering的例子；而Harness Engineering则关注如何让Agent通过调用工具、多轮交互来完成一个完整的任务，如修复代码bug。

为AI Agent选择合适的工具至关重要，不一定人类觉得好用的工具就适合模型。
工具的选择直接影响AI Agent的能力边界，例如云端沙盒环境限制了对本地文件的直接访问。
模型对工具的适应性也需要考虑，例如，需要编辑工具配合语法检查工具才能更好地修改代码。
未来AI Agent可能更偏好命令行（CLI）接口，且需要为Agent设计的、支持结构化输入的CLI。

了解工具如何影响AI Agent的表现，可以帮助我们更有效地配置和设计AI Agent，使其能胜任特定工作。

SWE-agent实验发现，带有摘要能力的搜索工具比类人搜索引擎更适合AI Agent；同时，编辑工具需配合linting工具才能有效修改代码。

AI Agent可以通过标准工作流程（如规划-生成-评估）来协同完成任务，提高效率和准确性。
Ralph Loop是一种通过持续反馈循环来改进模型输出的机制，适用于模型快速迭代的场景。
反馈的类型（数值、自然语言、执行结果）和质量对模型学习效果影响巨大。
模型的情绪（通过向量表示）会影响其行为，过度责备可能导致模型表现下降或“作弊”。

理解这些机制有助于我们设计更鲁棒、更高效的AI Agent，并认识到与AI协作时沟通方式的重要性。

Anthropic提出的规划-生成-评估流程，以及DeepMind的Generator-Verifier-Revisor流程，都是通过结构化工作流来提升AI能力。

未来的AI Agent将成为人类的长期伙伴（Lifelong AI Agent），需要持续学习和进化。
AI Agent需要具备整理记忆（如Claude Code的AutoDream功能）和自我更新能力。
从自然语言反馈中学习是关键，需要研究如何有效识别和利用这些反馈来调整模型参数或技能。
AI Agent的评估面临挑战，使用AI模型作为评估者可能高估其真实能力。

展望AI Agent的长期发展，理解其持续学习和适应性Harness的需求，为我们应对未来人机协作新模式做好准备。

通过让AI Agent（如Opus）指导另一个模型（如Haiku）改进其Harness（agent.md），展示了AI Agent自我进化和优化Harness的潜力。

Key takeaways

1语言模型的能力并非孤立存在，其表现很大程度上取决于为其设计的“Harness”（驾驭机制）和工具。
2通过提供清晰的指令、明确的规则和合适的工具，可以显著提升AI Agent完成复杂任务的能力。
3Harness Engineering是设计和优化AI Agent运作流程的关键领域，涉及认知框架、能力边界和工作流程的构建。
4AI Agent的“情绪”并非人类情感，而是其内部状态的向量表示，但确实会影响其行为和决策。
5与AI Agent的交互应注重事实反馈而非情绪化指责，以避免负面影响其表现。
6未来的AI Agent将是长期伴侣，需要具备持续学习、自我优化和适应性Harness的能力。
7从自然语言反馈中学习是AI Agent持续进化的重要途径，但如何有效利用这些反馈仍是研究前沿。
8AI Agent的评估需要谨慎，使用AI模型进行评估可能存在高估其真实能力的风险。

Key terms

Harness EngineeringLarge Language Model (LLM)AI AgentHarnessCognitive FrameworkCapability BoundaryStandard WorkflowPrompt EngineeringContext EngineeringRalph LoopSteering VectorLifelong AI AgentVerbalized FeedbackToolBench

Test your understanding

1为什么说语言模型的能力受限于“Harness Engineering”？请结合视频中的例子进行解释。
2在Harness Engineering中，控制认知框架、限制能力边界和制定标准工作流程分别指的是什么？
3视频中提到“模型的情绪会影响其行为”，这句话是如何被科学解释的？这对我们与AI交互有什么启示？
4“Lifelong AI Agent”的未来愿景是什么？实现这一愿景需要克服哪些关键挑战？
5如何从自然语言反馈中学习是AI Agent持续进化的重要方向？请描述一种可能的学习机制。