最初,团队中的每个人都参与了讨论(产品、工程、设计等),但我们知道我们需要一个更加有原则的方法,拥有一致且多样化的标注者。我们内部的语言学家团队建立了工具和流程,使我们能够每天评估多达次对话,并获得以下方面的指标:整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。这成为我们了解趋势、迭代提示词并确保我们准备好上线的主要参考点。
自动评估是终极目标
但仍在进行中:没有它,工程师只能依靠主观判 乐队数据库 断和对有限示例的测试,并且需要天以上的时间才能获得反馈。我们正在构建基于模型的评估器来估算上述指标,并允许更快的实验,我们在幻觉检测方面取得了一些成功(但这并不容易!)。 智能体产品案例深度思考和分享(全球顶级公司实践细节,做智能体必读) 图:我们执行的评估步骤。 工程师进行快速、粗略的评估以获得方向性度量和判断。标注者提供更详细的反馈,但大约需要天的时间。测试成员是最终的评判者,并为我们提供规模性的反馈,但单个更改的某些度量可能需要天以上的时间。
还在死磕的事
端到端自动评估流程,以实现更快的迭代。 . 调用内部 领英拥有大量关于人、公司、技能、课程等的独特数据,这些数据对于构建具有独特和差异化价值的产品至关重要。然而,大语言模型()并未经过这些信息的训练,因此无法直接用于推理和生成响应。为了解决这个问题,一个标准的做法是设置检索增强生成()流程,通过该流程调用内部,并将它们的响应注入到后续 因此他们失去了优化预算和以更直接和个性 的大语言模型提示词中,以提供额外的上下文来支持生成响应。 这些独特的数据中有很多是通过各种微服务中的远程过程调用()在内部公开的。这些虽然这对于人类通过编程方式调用非常方便,但对于大语言模型来说并不友好。
我们通过把这些“包装
成技能来解决这个问题。()都包含以下组件: 人类(和大语言模型)友好的描述:说明的功能以及何时使用它。 调用配置:包括端点、输入、输出等。 大语言模型友好的输入和输出: 基本类型(如字符串布尔值数字) 风格的输入和输出 业务逻辑:用于在大语言 bw 列表 模型友好的与实际 之间进行映射。 (注:是个编程术语,也许可以翻译成模式,拿表作类比,表头是) 这样的技能使大语言模型能够执行与我们的产品相关的各种任务,如查看个人资料、搜索文章人员职位公司,甚至查询内部分析系统。同样的技术也用于调用非 ,如搜索和新闻。