智能客服机器人的衡量指标体系

编辑导读：智能客服机器人已经成为了很多企业售后的标配产品，它能在一定程度上减轻客服人员的压力。如何衡量一个智能客服机器人是否好用，这就需要制定系统化的指标和优化方案。本文将从数据指标和如何细化两个方面，对智能客服机器人的衡量指标体系展开分析，与你分享。

智能客服机器人慢慢成为了很多企业售后环节的标配产品，同时市面上智能客服供应商也如雨后春笋般涌现，大家都宣称自己的机器人多么智能。但很多时候，上线后要让机器人发挥作用，不是“多么智能”几个字就能达到目标。里面需要团队中的产品、运营、算法等人一起努力。当然，很多团队由于没有经验，这个过程会像丈二的和尚摸不着头脑，需要进行多次摸索才能知道该如何优化。

所以，今天要讨论的，就是如何系统化去衡量机器人的效果，从而帮助团队针对性高效优化机器人。

说明：本次讨论的范围限于售后服务的文本机器人。

一、数据指标

1. 北极星指标

说到衡量效果，就需要提到数据指标。

每款产品都有很多数据指标，而我们要找的应该是最核心的指标，即业界说的【北极星指标】。这个指标一定是最能体现业务目标的。

比如闲聊机器人是为了陪伴用户度过每个无聊的日子，北极星指标应该是活跃度和留存率；营销机器人是为了让用户下单，北极星指标应该是营销转化率。同样的客服机器人是为了解决用户疑惑，不用转人工从而降低成本，所以北极星指标应该是【独立接待率】，与其相反的就是【转人工率】。维护客服机器人，其实就是不断提高独立接待率，降低转人工率。

找到这个核心指标不是完事，毕竟这个指标可能连我不怎么用网络的舅舅都知道。这只是一个开始，接下来还得知道哪些因素会影响该指标，才能从这些方向针对性地优化机器人。

2. 客服业务流

要想降低转人工率，也就是机器人能帮客户解决更多问题，那就要求机器人能像人工客服一样，甚至做得比人工客服更好，才能让客户认可。我们回想下，客服在解答用户问题时，都做了哪些事？

小七总结了一下，客服的核心业务流分为三部分：

了解用户的问题：知道用户问的是什么问题，如果用户表达不清楚，还需要跟用户确认
了解问题的解法：知道该问题如何解决，考验客服对业务的熟悉程度
解答用户的问题：利用用户听得懂的表达来解答用户问题，且需要适时安抚

3. 机器人业务目标

了解了客服的核心业务流之后，我们需要让机器人也能完成这个流程，从而让客户愿意接受机器人的答案，降低转人工率。对于机器人来说，要满足核心业务要求，需要其达到对应的能力。那具体对应是哪些能力，这里我根据以往的经验，做了一层映射。

了解用户的问题：准确知道用户问题的意图，若意图缺失，还需要与用户确认
了解问题的解法：知道大部分业务问题的答案，能够在识别到用户意图之后给出解法
解答用户的问题：回复话术需要让用户听得懂，听得舒服，保持人性化

根据以上内容，我总结了降低机器人转人工率的三个方向以及对应指标，接下来我们就一个个方向进行细化。

二、细化

1. 识别得多不多

识别得多不多，也就是机器人能不能理解用户更多意图，并给出相应回复。这里就要求机器人知识库能够覆盖更多业务问题，当业务覆盖率越高，机器人就能识别更多意图，解答更多业务问题。

业务问题可以通过聚类历史数据筛选出来，那如何从更细化的指标体现业务覆盖率呢？

一般来说，知识库覆盖的业务问题越多，机器人不知道的问题就越少，也就是无法识别的比例越低；对应能够识别且回复的问题越多，也就是直接回复比例越高。在这两者之间，还有一类间接回答的场景，也就是机器人大概知道但又不大确定的问题，就会推荐几个类似问题让用户确认。

总的来说，要衡量机器人识别得多不多，可以通过机器人回复类型来判断，目标就是：机器人回复的所有消息中，直接回答比例不断提升，间接回复和无法识别的比例不断降低。

2. 识别得准不准

我们想观察机器人识别得准不准，实际上就是在分析机器人自信认为理解了用户的意图，而事实上到底对不对。

机器人自信认为对的问题，也就是我们前面说的直接回答场景，也就是机器人直推且正确的消息数与机器人直推的消息数比例，可以归纳为【直推准确率】。当然，判断机器人直接回复准不准确，需要机器人训练师做人工质检，才能得到确切的数据。

另一方面，我们也可以考核机器人给出所有反馈的准确率，包括了直接回答和间接回答。虽然间接回答是机器人不大自信，没有给出直接答案，从而给出了推荐问题；但如果推荐问题都是错的，那就没有任何意义，甚至大大降低了用户体验，所以还是需要保证其准确性。

因此我们可以归纳为【综合准确率】，公式可以总结为：（机器人直推且正确的消息数+机器人间接回答且正确的消息数）/机器人直接+间接回答的总消息数。

当然，或许有人会有疑惑，机器人间接回答到底正不正确很难衡量，甚至人为质检都存在很大不确定性。确实，这个指标比较模糊，但我们可以从用户反馈动作来观察，也就是看机器人间接推荐了问题且用户采纳问题去查询答案的场景，我们就理解为机器人间接回答是正确的。从这个定义出发的话，我们也不需要进行人工质检，由系统根据用户反馈来进行统计。

3. 回答得好不好

业务覆盖也做了，准确性也保障了，最后就是要给出答案。衡量机器人回答得好不好，很大程度上跟AI能力无关，而是运营效果的衡量。运营人员给每条知识库问题配了答案之后，这个答案需要能够解决用户问题，安抚用户情绪，从而让用户不转人工。所以要看回答得好不好，一方面我们需要细化到每个FAQ的效果来看，另一方面这是一个非常主观的问题，所以我们需要将主观变为客观，也就是看针对每个答案，用户的反馈。

用户对机器人的反馈一般有两种，一种是转不转人工，另一种就是评价，对应的指标就是【答案解决率】和【答案的满意度】

答案解决率就是机器人给出了答案后，用户是否转人工，若是转人工了，说明答案无法解决用户问题，如果没有转人工，一定程度上可以理解为解答了用户问题。所以运营可以通过这个指标，筛选出答案转人工率最高的问题，进行针对性优化，提升答案解决率。

答案满意度是通过用户对机器人答案的点赞或者点踩来进行分析，我们可以分为整体点赞/点踩率和单个答案的点赞/点踩率，从整体和局部去分析机器人回答的好坏。例如某个答案的点踩率特别高，我们就需要进行策略调整，是不是换个回复内容，甚至牺牲转人工率，让其进入人工，从而保证用户体验。