至乎温馨-关乎你的心

(热推新书)顾祖迎最新更新章节顶点_顾祖迎(顾祖迎容与聪)小说免费阅读更新

小说《杰出的性能》是作者“裘翔通”的精选作品之一,剧情围绕主人公 顾祖迎 容与聪 的经历展开,完结内容主要讲述的是:首发:AINLPer微信公众号(每日论文干货分享!!)编辑:ShuYini校稿:ShuYini时间:2023-10-11引言大型语言模型(LLM)展...

(热推新书)顾祖迎最新更新章节顶点_顾祖迎(顾祖迎容与聪)小说免费阅读更新

第一章


首发:AINLPer微信公众号”每日论文干货分享!”
编辑:ShuYini校稿:ShuYini时间:2023-10-11引言大型语言模型”LLM”展现出了杰出的性能,并为我们提供了新的解题思路。
但在实际应用过程中,如何评估大型语言模型的输出质量对于我们来说也至关重要。
因为大模型的输出是概率性的--这意味着同样的Prompt产生的结果都有可能不同,大模型评估能够衡量模型输出的质量水平,能够确保用户的体验。
为此,今天给大家整理了一些LLMs输出结果的评估方法。
一、用户反馈评估的黄金标准”GoldStandard”是收集真实的用户反馈。
即:如果想要深入了解应用程序的质量与实用性,最佳方法是收集真实用户的反馈。
除此之外,其它的评估方法都是从侧面反映出模型的质量水平。
收集用户反馈的具体策略可以有不同的形式,例如:“显式反馈”:通过相关功能来收集用户反馈,例如:对于模型的输出结果,如果觉得好就点个赞,如果觉得不好就点个差;亦或者对输出进行打分评级,特别好9分以上,好8分以上,较好7分以上,一般6分以上,差6分以下等。
“隐式反馈”:通过用户行为分析,例如:对于模型的输出结果并不关心则视为负面结果,对于模型的输出结果停留的时间较长则视为正面结果等。
通过以上两种规则方式,随着越来越多的用户开始使用该模型应用程序,就会收集到很多用户关于该模型的使用数据,根据该数据来分析模型的输出效果,从而不断地改进模型效果。
但该方法也存在一定滞后性。
因为只有当模型上线对客且用户使用一段时间之后,这些数据才能够收集到。
为此,在模型应用上线对客之前我们还需要对其进行评估测试,这就需要下面的这几个方法。
二、人工评估上线对客之前,评估大模型应用输出水平的最佳选择是:让标注人员在预部署阶段评估大模型应用的输出。
典型的评估方法是构建测试数据集,根据测试数据集进行模型评估。
让我们看一个简单的问...

相关推荐