每个技能 | BZB 目录

最初，团队中的每个人都参与了讨论（产品、工程、设计等），但我们知道我们需要一个更加有原则的方法，拥有一致且多样化的标注者。我们内部的语言学家团队建立了工具和流程，使我们能够每天评估多达次对话，并获得以下方面的指标：整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。这成为我们了解趋势、迭代提示词并确保我们准备好上线的主要参考点。

自动评估是终极目标

但仍在进行中：没有它，工程师只能依靠主观判乐队数据库断和对有限示例的测试，并且需要天以上的时间才能获得反馈。我们正在构建基于模型的评估器来估算上述指标，并允许更快的实验，我们在幻觉检测方面取得了一些成功（但这并不容易！）。智能体产品案例深度思考和分享（全球顶级公司实践细节，做智能体必读）图：我们执行的评估步骤。工程师进行快速、粗略的评估以获得方向性度量和判断。标注者提供更详细的反馈，但大约需要天的时间。测试成员是最终的评判者，并为我们提供规模性的反馈，但单个更改的某些度量可能需要天以上的时间。

还在死磕的事

端到端自动评估流程，以实现更快的迭代。 . 调用内部领英拥有大量关于人、公司、技能、课程等的独特数据，这些数据对于构建具有独特和差异化价值的产品至关重要。然而，大语言模型（）并未经过这些信息的训练，因此无法直接用于推理和生成响应。为了解决这个问题，一个标准的做法是设置检索增强生成（）流程，通过该流程调用内部，并将它们的响应注入到后续因此他们失去了优化预算和以更直接和个性的大语言模型提示词中，以提供额外的上下文来支持生成响应。这些独特的数据中有很多是通过各种微服务中的远程过程调用（）在内部公开的。这些虽然这对于人类通过编程方式调用非常方便，但对于大语言模型来说并不友好。

我们通过把这些“包装

成技能来解决这个问题。()都包含以下组件：人类（和大语言模型）友好的描述：说明的功能以及何时使用它。调用配置：包括端点、输入、输出等。大语言模型友好的输入和输出：基本类型（如字符串布尔值数字）风格的输入和输出业务逻辑：用于在大语言 bw 列表模型友好的与实际之间进行映射。（注：是个编程术语，也许可以翻译成模式，拿表作类比，表头是）这样的技能使大语言模型能够执行与我们的产品相关的各种任务，如查看个人资料、搜索文章人员职位公司，甚至查询内部分析系统。同样的技术也用于调用非，如搜索和新闻。

发表评论 取消回复

发表评论取消回复