心理学角度思考：儿童语音机器人VUI设计（早教

我曾给我外甥和外甥女买过语音机器人-扑闪着两只萌萌大眼，配上胖墩墩的mini人物外形，本来以为会深受两个小不点的喜好，谁知两小不点在夜里被机器人吓得之后都不敢靠近。正如Meadows曾提出“恐怖谷理论”：与人类极其相近但不完全相同的事物容易引起人的恐慌，也因这件事引发了我对儿童语音产品的探究。

如下图：

恐怖谷理论

行业产品研究

简单总结业内儿童语音机器人做的比较出色的其中三家（并未穷尽，聊表敬意）：科大讯飞的阿尔法蛋、狗尾草的公子小白、ROOBO的布丁豆豆。总结有误之处还请指正。

（1）水平对比分析：下图部分展示三家公司产品中其中三款产品的定位和交互、展示方式，且得到小结论：

主要面向0-16岁人群群体；
产品定位主要涉及儿童呵护、儿童教育（早教、学习指导）、生活助理；
教学内容基本为早教至初三前教学资源，少量涉及高中教学知识；
交互形式主要包括VUI（语音用户界面）、GUI（图形用户界面）；
AI技术包括声纹识别、ASR（语音转文字识别）、自然语言处理和对话管理、语音合成、计算机视觉OCR（文字识别）、TTS（文字转语音识别）、知识图谱。

（2）垂直对比分析：将同家公司旗下的不同版本的语音机器人产品进行功能对比。

科大讯飞旗下有大蛋、小蛋、超能蛋、金龟子等，四款产品明显区别：

大蛋有屏幕和摄像头，可以满足比如视频通话、安全监控、声控拍照等关于视频方面的操作需求，其它三款没有。
大蛋和超能蛋是语音唤醒，小蛋和金龟子蛋是按键唤醒。

狗尾草旗下有公子小白成长版I、公子小白成长版II、公子小白青春版、公子小白Pro等，旗下产品比较清晰地划分目标群体用户，成长版II主要针对婴幼儿，成长版I主要针对学龄前至少年期，青春版主要针对青年期，Pro版主要针对成年期。

成长版和成长版II的明显区别：

I版有记忆调教，II版没有，考虑学龄前至少年期儿童群体心智已较成熟且口头表达能力较流畅；
I版为语音唤醒，II版为按键唤醒，考虑锻炼儿童动手能力和降低婴幼儿因口齿不清唤醒机器人的难度。

ROOBO旗下有布丁机器人1S、布丁绿豆、布丁迷你豆、布丁豆豆慧读版等，区别在于：

布丁绿豆是1S的版本升级，增加了触摸操控+屏幕表情，双插电充电+升级电池、记忆功能、学习报告、视频功能、丰富了教学资源；
布丁豆豆慧读比绿豆增加了绘本读书器功能；
迷你豆比绿豆减少屏幕，增加微聊和胎教教学内容。

小结思考：“是否需要为儿童提供屏幕动态视频展示功能”、“是否需要针对不同年龄段儿童制作不同功能版本的机器人”是我在了解行业产品后发现的有趣探讨点，在接下来“心理学角度思考：儿童语音机器人VUI设计”系列会进一步涉及个人观点。

心理学角度思考：儿童语音机器人VUI设计（早教篇）

第一步：确定目标用户群体

意大利著名的“蒙特梭利教育理念”提到：宝宝在6岁前不同阶段对语言、动作、细节、程序、书写、阅读等特别敏感，该段时期称为“敏感期”，抓住该段时期让孩子从无意识状态过渡到有意识状态，并建立起宝宝所特有的心理结构和语言表达机制。

0-6岁孩子八大敏感期如下：

本篇主要研讨早教语音机器人VUI设计，目标用户群体为0-6岁婴幼儿群体。

第二步：树立VUI人格特质，选取符合产品形象的音色

Cathy Pearl在《语音用户界面设计》一书中曾提到：

“用户会将你的VUI人格化，无论你是否有意让用户这样做，他们都会认为VUI具有某种人格特质，最好做法是你自己在设计时就确定好VUI人格。”

Siri的高冷女性形象、微软小冰的卖萌逗趣小可爱、小爱同学的青春二次元美少女便是主动打造VUI虚拟角色、树立不同人格特质的做法。

而0-6岁婴幼儿最需要家人陪伴，因此机器人形象树立为年轻温和的宝爸或宝妈，由于不同家庭宝爸宝妈陪伴孩子的时间各异，可构建两种形象版本让用户切换选择，比如：某户家庭中陪伴孩子时间比较少的是爸爸，用户可以选择“宝爸”版本，让语音产品填补宝宝缺乏的来自父母某方的陪伴。

而机器人语音音色的选择需要和产品形象保持一致，需要温和不严厉的年轻音色。目前科大讯飞已经推出声音复刻技术在小范围群体使用，往后若声音复刻技术达到推广应用水平，或许可让用户通过复刻自身声音来自主定义机器人语音音色，使得宝宝更真切感受到家人的陪伴。

第三步：明确产品定位，构思功能，绘制VUI流程图

流程图在IVR（互动式语音问答）设计中用于展示VUI系统所有可能发生路径的图示，在绘制流程图前要先根据产品的定位和目标确定产品功能。

产品定位为：早教+陪护。
产品目标包括三项：开发智力、关注心理健康、保障安全。

Part 1 : 产品功能考虑细节

屏幕视频功能考虑：

针对早教是否需搭配动态视频展示这个问题，有的机器人产品考虑保护孩童视力不建议增加动态视频功能。

个人观点是：根据“蒙特梭利教育理念”提到的0-6岁宝宝的“感官敏感期”，4个月左右时，宝宝大脑中负责听觉、语言、嗅觉的颞叶和枕叶会变得更加活跃，色彩鲜艳、情节简单的拟人卡通视频会对他们更有吸引力，且在有助在其不识字状态帮助理解学习。感官的全面调动也有助于开发宝宝智力。

互动游戏功能考虑：

同时，“蒙特梭利教育理念”提到：孩童6个月后会进入咿呀学语模仿阶段，9个月左右进入语言理解阶段，13个月左右可进入以词带句教育阶段，下图举例了3-6岁孩童的语言能力发展目标。

此阶段要让孩童多与环境中对应的事物互动并鼓励说出来、培养孩童的专注力和听力等，这种情况下趣味性的互动游戏便不可或缺。

引用《蒙特梭利：儿童语言能力训练》

虚拟表情动态功能考虑：

美国著名的心理学家丹尼尔.西格尔在《全脑教养法》中提过“印证式倾听”，而印证式倾听的前提是让对方感受到自己是在用心了解其观点。孩童渴望得到关注和聆听，因此当机器人跟宝宝在沟通对话时，搭配上虚拟表情状态，表达对沟通者的关注和喜怒哀乐情绪的共情。

状态追踪监护功能考虑：

如果要打造宝宝状态追踪监护功能，机器人硬件最好设计为可移动+室内空间定位，搭配计算机视觉技术。家长可在离家时开启宝宝追踪监控，通过人物识别确定追踪对象身份而追随其活动，重点识别是否进入危险区域和人体姿态识别其是否出现摔倒等状况。打造该功能时产品方需要承担责任风险和考虑孩童抵触心理，以及遇到像扫地机器人无法抵达家里某些空间的问题。

磨牙功能考虑：

宝宝6岁后进入探索事物的萌芽期，把抓到的东西放入嘴里啃咬是他们探索世界、寻求安全感的一种方式，且长牙阶段的难受使得宝宝更频繁咬东西。弗洛伊德的儿童心理学理论将该阶段称为口唇期，阻止孩童啃咬东西容易导致孩童长大后缺乏安全感和咬手指等坏习惯，因此要主动给宝宝提供安全卫生耐啃咬的产品。