通过多轮对话 | BZB 目录

它遵循法则；很快可以达到%的准确度，但剩下的%却耗费了我们大部分人的所有工作时间。

当你的产品期望

以上的答案都非常出色时，即使使用最先进的模型，每一个%的进步 99 英亩数据库也仍然需要大量的工作和创造力。对我们而言好使的招数是：固定的三步流程用小模型干路由检索，用大模型干生成基于内存数据库的（- () ），直接将响应示例注入到我们的提示词中（穷人版微调）。（注：是个技术名词，感兴趣的自己再查吧。）在路由和检索过程中针对每个步骤做特定评估 . 开发速度我们希望多个团队并行快速推进，因此决定将任务拆分为由不同人员开发的独立智能体（即智能体）：岗位评估、理解公司、帖子要点提取等智能体分别由不同团队负责。

这种方法带来

了显著的不良影响（）。通过并行处理任务，我们在速度上取得了优势，但这却以碎片化为代价。当与智能体的交互可能由不同的模型、提示词或工具管理时，保持统一的用户体验变得极其具有挑战性。为了解决这个问题，我们采用了一个简单的组织结构：）一个小型“横向”工程小组，负责处理公共组件并专注于整体体验。

这包括

各种支撑此产品的基础服务评估测试工具所有垂直领域使用的全局提面我们可以先人工再示词模板（例如，智能体的全局身份标识、对话历史、越狱攻击的防护等）客户端的共享组件（注：一般就是指按钮、下拉列表这些）一个服务器端驱动的框架，用于发布新的更改，而无需更改或发布客户端代码。（注：因为在服务端，那就需要有个在服务端生成的框架，很麻烦的一个东西））多个“纵向”工程小组，各自对其智能体拥有自主权，例如：个性化帖子摘要岗位匹配度评估面试技巧）那些东西对我们有用：分而治之，但限制智能体的数量建立一个中心化的，支撑的评估过程共享提示词模板（如“身份”定义）、模板、工具及 bw 列表指令 . 评价输出好坏评估我们回答的质量比预期的要困难得多。这些挑战大致来自三个方面：制定指南、扩展标注和自动评估。制定指南：以岗位评估为例：点击“评估我是否适合这份工作”却得到“你非常不适合”的结果其实没啥用。我们希望它既具有事实性又充满同理心。有些用户可能正在考虑转行到他们目前并不十分适合的领域，并需要帮助了解差距和下一步行动。不能确保这些细节的一致性就没法让保持标注者保持评分的一致性。

当你的产品期望

这种方法带来

这包括

发表评论 取消回复

发表评论取消回复