4.1评价指标的范围4.1.1性能指标,用于衡量人工智能客服语音识别及语义理解能力,主要包括语音识别准确率、问题识别率、意图理解准确率等。4.1.2运营效果指标,用于衡量人工智能客服在客户体验提升、服务分流等方面的能力,主要包括交互准确率、问题解决率、智能分流率等。4.2评价指标的方法4.2.1抽样法根据交互样本标注数据推算人工智能客服评价指标的方法。按照GB/T21664-2008规定,假设事项发生率为50%、绝对误差为1%时,所需的必要样本量为1万。完成样本抽取后,与标注人员对本单位业务流程判定的结果进行对比,一致即为正确。4.2.2报表法根据系统运营数据计算人工智能客服评价指标的方法。典型的系统运营数据包括进线量、交互数、客户评价数、转人工进线量。4.3评价指标的内容4.3.1语音识别准确率4.3.1.1指标释义标注有效交互中,语音识别正确的字数在人工智能客服转写总字数中的占比。该指标主要适用于语音交互AI。4.3.1.2计算口径4.3.1.2.1适用语种主要为中华人民共和国国家通用语言文字(普通话和规范汉字),包含阿拉伯数字及常用英文。在测算时,阿拉伯数字、单独英文字母(如:e缴费、ETC),一个数字或字母按一个文字计算;英文单词(如:card),一个单词按一个文字计算;标点符号不计算在内。注:中华人民共和国国家通用语言文字必须符合《中华人民共和国国家通用语言文字法》的要求。4.3.1.2.2计算方法语音识别准确率采用抽样法计算。4.3.1.2.3标注有效交互标注有效交互指抽样标注交互中剔除无效语音后的交互。无效语音由标注人员在测听过程中参考判定规则进行判断,详见表1。
5检验规则5.1组批同原料、同工艺、同设备、同班次生产的产品为一批。5.2抽样从同一批次的产品中随机抽取样品,样品量应满足检测及留样要求,样品分为2份,1份检验,1份备查。5.3出厂检验产品出厂前应进行出厂检验,合格方可出厂。出厂检验的项目为感官、大肠菌群、净含量。5.4型式检验型式检验项目为本文件4.2至4.5及标签的规定,每半年进行一次,有下列情况之一时亦应进行:a)新产品投产;b)原料、工艺、生产条件有较大的变化可能影响产品质量时;c)连续停产一年以上恢复生产时;d)出厂检验结果与上次型式检验结果有较大差异时;e)监督管理部门提出型式检验要求时。5.5判定检验项目均符合本文件规定时,判定该批产品合格。微生物指标有不符合时即判为不合格且不应复检。当检验项目有其他指标不符合本文件要求时,允许用留样对不符合项进行复检,结果判定以复检结果为准。