深度思考和分享(全球顶级公司实践细节,做智能体必读) 图:使用技能调用内部 我们编写了提示词,要求大语言模型()决定使用哪种技能来解决特定任务(通过规划来完成技能选择),然后输出调用该技能所需的参数(函数调用)。
由于调用参数必须与输入匹配
我们要求以结构化的方式输出它们。大多数都经过和的 投资者数据库 结构化输出训练。我们选择是因为它更简洁,因此消耗的比少。 我们遇到的一个挑战是,虽然大约%的时间里,的响应包含了正确格式的参数,但有大约%的时间,会出错(注:经常说的幻觉),并且经常输出不符合要求的数据,或者更糟糕的是,甚至不是有效的。虽然这些错误对人类来说微不足道,但会导致解析它们的代码出错。由于%的比例足够高,我们不能忽视这些微不足道的错误,因此我们着手解决这个问题。
解决这个问题的标
准方法是检测到错误,然后重新发提示词给大语言模型,要求它在这些额外指示下纠正错误。虽然这种方法有效,但它增加了不小的延迟,并且由于额外的调用而消耗了宝贵的算力。为了绕过这些限制,我们最终编写了一个内部防御性解析器。 通过对各种调用参数()的分析,我们确定了常犯的错误,并编写了代码来在解析之前 动应用开发平台获万美 检测和适当修补这些错误。我们还修改了提示词,以便在这些常见错误周围注入提示词,以提高我们修补的准确性。最终,我们将这些错误的发生率降低到了约.%。
这其实是用规则补足模型的不足
降低成本) 还在死磕的事是:构建一个统一的技能注册机制,以便在我们的生成式产品中动态发现和调用封装为友好技能的智能体。(注:可以想象是个技能商店,智能音箱那种能够动态添加天气、音乐技能的机制) . 保持统一的质量 团队在首月内实现了我们目标体验的%,随后又额外花费了四个月时间,致力于将我们的全面体 by 列表 验完成度提升至%以上——我们勤勉地工作,对各个方面进行精细化调整、优化和改进。然而,我们低估了检测和减轻幻觉现象的挑战,以及质量评分提升的难度(注:原文是速度应该是笔误)——起初迅速攀升,随后便迅速达到瓶颈期。 对于那些容忍一定错误率的产品而言,采用生成式进行构建无疑是一种令人耳目一新的直接方法。但这也带来了不切实际的期望,初期的快速进展营造了一种“即将达成”的错觉,而随着后续每%提升的改进速度显著放缓,这种快速改进的错觉变得令人沮丧。 构建该助手感觉像是偏离了“原则性”的机器学习,而更像是在专家系统中调整规则。