据保护 确保规如。 访问控制 模型提供的访问控制机制防止未授权访问。 隐私泄露风险 评估模型是否可能导致敏感信息泄露。 成本效益分析 成本分析 评估模型部署和运维的总成本包括硬件软件人力等。 投资回报率 评估模型带来的收益与成本
之间的关系 长期成本效益 考
虑模型的长期维护和升级成本。 可扩展性和兼容性 可扩展性 模型适应数据量增加或功能扩展的能力。 技术升级 模型适应新技术或框架升级的能力。 平台兼容性 模型在不同操作系统硬件平台或环境中运行的能力。 . 确定评测问题
根据指标确定提问问题 本次公司内部主要 WhatsApp 号码数据 围绕企业业务场景提升产品易用性降低投诉率。需要借助大模型完成以下功能 在低代码产品中通过对话结合产品内组件自动生成静态页面自动选择图标等能快速提升用户搭建的页面质量此功能需要结合t; 企业知识库用户/应用团队/合作伙伴能够通过单轮/多轮对话快速了解操作方式; 产品智能助手能够通过用户所处页面判断场景提供可能的指导方案此功能需要结合t; 通常测评问题可以分为功能性测评非功能性测评。功能性的测评是关注大模型是否提供了预期的功能和行为比如能够通过阅读提供的帮助手册回答用户关于产品操作的问题;非功能性测评注系统或模型的性能安全性可用性等非功能方面比如回答一个
问题需要多少时长能够为未来的功能集成 如何像专业设计师一样优化您的广告横幅 提供更好的环境这部分有很多的指标是需要算法同学协助进行的。 以我们公司的项目为例我的功能性测评为 非功能性测评 . 确定打分指南 产品经理需要制定一套标准的打分指南能够便于对模型评分进行解释而不是过于主观的进行评分示例满足要求一字不改。直接采用。 不完全满足有小瑕疵但可接受。小改之后采
是偏题无法用. 数据预处理 在我
们确认目标并开始测试前需要对已有的文档 警报新闻 进行预处理因为公司之前的文档是我写给团队内部及合作伙伴的参考操作手册 所以必然存在一些口语上的问题格式不统一等为了让大模型更好的理解企业文档中的内容所以我进行了如下操作 数据规范化mzt 缩放数值将数据缩放到特定的范围或比例例如到之间以消除不同数值范围和量纲的影响。 归一化将数据转换为具有统一比例的格式常用的方法包括最小-最大归一化Z分数归
一化等。 编码分类变量将分类变量转换为模型可处理的格式如使用独热编码-Ht或标签编码。 特征工程创建新的特征或修改现有特征以提高模型的性能例如通过多项式特征扩展或交互项。 降维使用主成分分析等技术减少特征的数量同时尽量保留原始数据
的变异性。 解释对文档中独有的黑话进行解释避免大模型理解出现偏差。 数据清洗 去除重复记录检查文档中的重复行并删除它们以避免在分析中产生偏差。 处理缺失值识别文档中的缺失值要决定是填充它们删除它们还是保留它们。 纠正错误和异常值识别文档录入错误和异常值进行纠正/删除以保证数据