一、智能语音:谈入口太早,但不可或缺
智能音箱是台面上的狂欢,本质还在用户、数据和服务
自2014年11月Amazon推出收款基于语音交互的智能音箱Echo以来,2015年科大讯飞发布智能音箱叮咚,2016年谷歌发布智能音箱Google Home。
而进入2017年以后更是密集,5月联想发布智能音箱,Amazon发布带触屏的Echo Show,微软联手音频设备制造商哈曼.卡顿合作打造Invoke,6月苹果发布HomePod。同时国内BAT等互联网巨头也纷纷有意入局。
智能音箱本身不是目的,争夺的是背后的用户、数据以及服务入口。其实基于语音交互技术的入口产品可以是音箱、电视等家居产品,甚至可以是室内可及的智能设备,之所以选择音箱作为突破口,只不过看重这样一款在初期能承担除交互之外其他功能的载体。
对于用户而言,需要的是能够将众多繁杂的应用和接口进行封装的工具,不再需要自己主动到每一个具体应用上获取服务,而是借助语音交互统一的入口提供。对于巨头公司而言,目的在于借此获得移动互联网之后一个能够获取用户数据并持续提供服务的入口。
单就智能音箱而言,交互体验和连接的服务是影响用户选择的重要因素。抛开智能音箱的设定,其本质是一款基于语音进行人机交互的智能硬件,在算法层面涉及到降噪、远场识别、唤醒与打断以及多轮会话、语义分析等自然语言理解技术,硬件层面主要涉及到进行声音采集的麦克风阵列技术以及声音播放时扬声器处理。软硬件的协同配合方能使得人机交互更为自然。
如果说播放音乐是传统音箱的主要功能,那么对于智能音箱而言,这已经几乎成为附带选项,互相之间拼的不是、或者说不只是音质问题,更多是人机交互的体验,以及交互背后所能支撑和兼容的服务数量与质量。无论是对接线上的互联网服务,还是线下智能家居系列产品,若无法形成产品、应用以及数据的生态闭环,则智能音箱的入口目标就难以达成。
国内智能音箱的惨淡销量还与消费习惯相关,用户培育需要时间。与Amazon Echo千万量级销量相比,国内科大讯飞与京东联合发布的叮咚音箱销量似乎逊色不止一筹。除了在技术和应用层面可能存在的差异之外,各自根植的土壤环境也有着先天的差异。
若去掉“智能”的概念,智能音箱首先是个音箱,与欧美超过85%的家庭音箱普及率相比,国内甚至不足20%,在对音乐以及音箱设备的需求观念上的差异导致音箱对欧美人群或许是“生活刚需”,而对国内用户或许目前还只是少部分人的爱好。正如前文所述,音箱只是恰好成为载体之一,最核心的依然是物联网时代智能终端的人机交互入口。
信息获取与表达决定语音交互成为阶段性不可或缺的一环
互联网PC时代人机交互主要依赖鼠标和键盘,移动互联网时代触摸屏交互成为标配,那么人工智能时代的交互会由哪种方式主宰?基于语音控制的智能音箱还是智能电视?
这些或许有可能成为智能家居入口,但即便Amazon Echo已然达到千万级销量及超过1万项技能点,似乎也不足以成为人工智能时代交互入口的产品担当。
从信息获取以及表达的角度来看,交互入口的演变必然是从习惯到本能的革命。从信息获取来看,研究表明,人的各种感觉器官从外界获取信息来源=视觉60%+听觉20%+触觉15%+味觉3%+嗅觉2%。
其中视觉、听觉及触觉累计高达95%,基于此或许就不难理解为何无论是互联网时代的PC还是移动互联网时代的智能机,不仅无法离开键鼠套装和触摸传感器,而且还无法离开那块或大或小的显示屏。
从信息表达来看,1967年美国著名心理学家、传播学家艾伯特梅拉比安等人经过大量实验,提出人类在沟通中全部的表达信息=肢体语言信息55%+声音信息38%+语言信息7%,或许这也能在一定程度上解释为何各家智能音箱先后登场却依然未能挑起入口大梁。
我们认为,从键鼠输入的抽象符号到触摸屏直接的滑动与按压,这已经在一定程度上靠近了人类习惯,而未来的交互方式将更为接近人的本能。
语音或许是人机交互的阶段性成果,基于语音的人机交互或许会成为某个特定场景的入口,但语音与肢体动作的融合或许更可能担当得起一个时代的交互入口,至于更为遥远的未来,或许会有类似脑电波等其他方式。
二、智能语音相关技术及发展历史
智能语音主要研究人机之间语音信息的处理和反馈问题,从表现形式来看,即研究如何通过语音实现人机交互,相关支撑技术主要可划分为基础语音技术、智能化技术以及大数据技术。
语音识别准确率在引入深度学习之后得到快速提升。语音目标在于使机器最终能够将识别语音中的内容、说话人、语种等信息。在技术思路经历了基于标准模板匹配和基于统计模型(HMM)两个阶段;
2010年开始由微软的俞栋、邓力等与Hinton合作,在语音识别领域引入深度学习替换传统的特征提取,随着深度学习的引入以及在此基础上派生的各类模型的组合,语音识别准确率大幅提升。
2017年3月IBM通过长短时记忆、WaveNet语言模型和三个强声学模型的组合,在Switchboard数据集上电话语音识别错误率降低到5.5%,无论是对比微软2016年测试结果给出的人类速记员5.9%错误率还是此次IBM给出的人类5.1%,机器都已经极为接近人类水平。
语音合成已有200多年悠久历史,表现力尚有待继续提升。在计算机技术出现之前主要模仿人体发声原理制作相应硬件,计算机技术出现后音质、音色和自然度都有提升。随着技术演进,语音合成的复杂度、自然度和音质都已取得不错的成绩,目前研究重点在于提高合成音的表现力,如语气和情感等。
声纹识别目前也正向着深度学习方向发展,但不管是用传统算法还是深度学习,都需要事先建立声纹库。
声纹识别主要根据语音波形反馈的说话人生理和行为特征,自动识别说话人身份,在安全性上可与指纹、掌形和虹膜等生物识别技术相媲美,目前已经用于公安和司法系统证据鉴定中的身份鉴别,以及银行支付过程的身份认证。
声纹识别和语音识别结合,能通过识别内容防止录音假冒,和情绪识别结合,则可以感知识别对象是否处于受胁迫状态。声纹识别需要相应的声纹库,且至少要保证合理的性别、年龄段、地域、口音、职业分布。
测试样本应该涵盖文本内容是否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等主要影响因素,因而声纹数据库成为声纹识别技术突破的重要门槛。目前最全的是公安部的声纹鉴别库。
自然语言理解目前尚处于浅层语义分析阶段,大致包含词法分析、句法分析、语义分析这三个既递进又相互包含的层面。
目前机器对句子的理解还只能做到语义角色标注层面,即标出句中的句子成分和主被动关系等,属于浅层语义分析技术。未来要让机器更好地理解人类语言,并实现自然交互,还有待深度学习等机器学习方法的进步。
多轮对话,主要建立在语音识别、合成以及自然语言理解等技术基础之上,自然度和准确度有待提高。
多轮对话系统一般分为任务型和闲聊型,任务型是协助用户完成具体的某项事情,如:设置闹钟、查天气等;而闲聊型是实现人机的情感聊天互动,如陪护型机器人。多轮对话相比单轮对话方式提高了用户交互的自然度和准确度。
对话管理是实现多轮对话系统的核心,功能分为对话状态追踪(DST)和对话决策(Dialog Policy),前者作用是更新对话状态,记录到目前为止用户所有的聊天记录和系统行为,后者依据DST对话状态产生系统行为,即决定下一步反馈或调用等行为。
三、智能语音产业发展现状
市场规模快速扩大,且国内增速显著超过全球
在移动互联网、大数据、云计算、深度学习等技术的发展推动下,智能语音技术渐趋成熟,行业发展进入场景应用布局阶段。移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音产业规模持续快速增长。
2015年全球智能语音市场规模达62.1亿美元,同比增长34.2%。中国智能语音产业市场规模也逐步扩大,2015年40.3亿元产业规模约占全球市场份额10%,且增速显著高于全球市场,预计至2017年份额占比将提升到14%。
各要素齐发力,推动智能语音形成完整产业链
借用我们前序报告中提出的人工智能商业化应用“人机料法环”模型,智能语音产业在人才储备、计算设施、数据积累、技术算法以及应用场景等五要素共同推动下已形成较为完整的产业链。
从产业链角度,智能语音行业可分为四个部分。基础研究机构:语音合成、语音识别、声纹识别等基础技术的研发和技术输出;语音语义数据提供商:为算法研究或技术输出机构提供语音、语义数据库以及定制化的数据采集和处理;
语音技术提供商:将基础技术转换为软件或行业整体解决方案,提供嵌入式或平台式的语音软件服务、行业智能语音系统整体解决方案;智能语音应用提供商:智能移动设备、智能车载系统、智能家居等智能终端厂商,以及输入法、娱乐等各类APP或软件客户端等,从产品属性来看主要包括消费级产品和专业级行业应用。
算法红利逐渐消失,一家独大转向多方竞争
随着深度学习的引入和发展,智能语音的算法红利正逐渐消失。Nuance自2005年与ScanSoft合并后,成为全球最大的语音技术厂商,凭借自身先进的语音识别、自然语言理解技术以及优秀的语音解决方案在2012年全球语音市场中占据62%,加上谷歌、微软合计占据超过85%。
2010年深度学习首次引入语音识别,随后配合计算能力的提升和海量语音语料数据的积累,识别准确率得到大幅提升。尽管2015年Nuance全球市场份额仍居第一,但已大幅下降至31.6%,而谷歌、苹果、微软及科大讯飞市场份额增长较快,分别达到28.4%、15.4%、8.1%和4.5%。
科技巨头对于深度学习算法及机器学习框架的开源使得智能语音技术的调用变得更为简单,模块化的设计使得应用部署与实施门槛显著降低。
目前中国智能语音市场被科大讯飞、百度和苹果占据绝大多数市场份额,2015年三家合计达79%。其中,科大讯飞市场份额为44.2%,处于市场领先地位。百度进入势头强劲,市场份额增长快速。
美国权威杂志《麻省理工科技评论》公布的2016年十大突破技术,百度硅谷的Deep Speech2智能语音技术赫然在列。谷歌、微软、苹果、百度等互联网巨头在资金、数据和2C应用用户拓展三方面优势明显,各方强势介入将使得全球智能语音行业由一家独大演变成多方参与竞争的格局。
技术驱动,场景应用 并 借助数据形成正反馈,三者成为智能语音行业的主要壁垒。技术算法壁垒:随着智能语音技术的发展,语音识别技术日益成熟,开源语音识别工具降低了语音识别的门槛,但使用过程的稳定性仍有待解决。
语音识别技术进入突破量变到质变的临界点,相关技术和配套设施的研发能够为企业筑起护城河,百度、搜狗、科大讯飞等公司安静状态下语音识别准确率大都达到 97%,目前均在向更高准确率以及非标准环境下的应用发展。
应用场景壁垒:2B应用涉及金融、电信、医疗、交通等行业,这些行业对系统的稳定性要求非常高,非常重视实际应用案例情况,会通过严格的招投标选择最具实力和经验的智能语音技术和服务供应商,一旦通过评测会保持稳定合作,新企业进入壁垒较高;2C应用层面互联网巨大具有商业应用和信息入口优势。
数据积累壁垒:智能语音在各场景应用用户体验和客户粘度提升的关键是积累真实环境下的各种语音资料和文本资料进行迭代优化,智能语音应用后形成数据闭环将不断提升壁垒优势。
目前智能语音产业的参与者可以分为三大类型:从科研实验室走出来的独立语音技术研发和服务提供商,如源于斯坦福研究院STAR实验室的Nuance、与中国科学技术大学合作的科大讯飞,围绕智能语音技术研发到应用各环节的初创企业。
如思必驰、云知声、出门问问、声智科技、三角兽、蓦然等创业公司,希望抢占下一代人机交互入口的科技巨头,如苹果、谷歌、微软、亚马逊、百度、腾讯、搜狗等。
2010年开始,互联网巨头纷纷通过自主研发或者并购/参股的方式深入布局智能语音产业参股的方式深入布局智能语音产业 。在智能语音上的布局重点围绕虚拟助手,并且为占据一定的市场先机,纷纷开始布局智能车载、智能家具、智能医疗、可穿戴设备等细分市场。
融合场景、借力硬件提升语音技术实用和稳定性
由于语音信号的多样性和复杂性,在真实使用场景中,考虑到空间距离、背景噪音、其他人声干扰、回声、方言、口音等问题,准确率会大打折扣。提高现实场景中的用户体验是智能语音技术完成质的突破的关键,涉及技术包括远场语音识别、唤醒目标检测、全双工交互、个性化识别技术等。
2016年10月intel与科大讯飞宣布合作共同研发AI芯片,将麦克风阵列、远场语音识别等功能集成到SOC当中,形成完整的远场语音交互链条。
目前近场、发音标准的语音识别已经相当成熟,手机端Siri即可视为这一类型,国内科大讯飞、百度、搜狗等在近场、安静环境下的语音识别准确率都已提升到97%以上。
但对于远场语音识别而言,虽然从技术原理上来看与近场几乎相同,但由于音源和麦克风之间的空间距离增大,声音传播过程会受到其他人声、回声等影响,在具体使用场景下准确率依然对软硬件都提高了技术要求。
四、智能语音的应用前景
巨头抢滩虚拟语音助手,并逐渐切入场景应用
语音交互的特点是简单、快速、解放双手和眼睛,在很多场景能够给用户带来巨大的体验优化。例如:避免繁琐操作:手机众多APP中直接用语音进入一个应用。
很小或没有屏幕:智能电视中用语音直接打开特定节目替代操作不便的遥控器、通过智能穿戴设备访问互联网。手眼无暇顾及:如开车过程、会议记录。发掘语音数据的价值:如利用电子病历语音数据辅助诊疗。
互联网女皇Mary Meeker在《2016年互联网趋势》中指出,语音交互将成为人机交互的新范式。而事实上随着智能语音技术的逐渐成熟以及自然语言理解的发展,语音已经成为不同场景下人与智能设备之间交互的重要手段。
巨头纷纷以虚拟语音助手切入智能语音应用场景。由于物联网涉及太多领域,跨平台、跨设备、跨品牌等诸多因素制约产业发展,统一标准是物联网行业发展的基础,在此逻辑基础上谷歌、微软、亚马逊等科技巨头纷纷以智能虚拟助手作为切入口,打造开放平台、以开源形式吸引开发者构建应用开发生态。
面向消费级产品和专业级行业应用,虚拟数字助手用户数与市场规模快速增长。语音、语义等相关技术的可用性逐渐提高,带来虚拟数字助手市场的扩张。从应用方向和场景来看,主要用于消费级产品和专业级行业应用。
消费级市场主要是2C或2B2C,应用于衣食住行等生活场景,如手机、智能车载、智能家居、可穿戴设备等。专业级行业应用主要是2B,应用于特定场景,如医疗、教育、呼叫中心、庭审等各个行业。
根据Tractica的预测,活跃消费者虚拟助手用户数量将从2015年3.9亿上升至2021年18亿,活跃企业虚拟助手用户数量将从2015年1.55亿上升至2021年8.43亿。虚拟助手市场规模将从2015年16亿美元增长至2021年158亿美元。
消费级产品应用场景
消费级市场智能虚拟助手的功能是基于语音交互实现设备控制、日程管理、信息查询、生活服务、情感陪伴等。
一方面可以通过开放平台接入第三方应用和服务丰富智能虚拟助手的功能,目前手机虚拟助手正是通过连接各类APP征服终端,另一方面可植入智能硬件终端,向汽车、家居、可穿戴设备等产品延伸,建立消费级智能语音产品的生态体系。
智能语音+车载
开车时双手和双眼被占用,语音交互成为该场景下最合适的交互方式。智能语音与汽车的结合主要为智能车载产品,通过语音完成导航、音乐搜索与播放、信息听写等。随着车联网的发展,未来将跟社交、娱乐、餐饮等服务进一步结合,在保证安全的前提下提升驾乘体验。
腾讯汽车等相关调研机构的数据显示智能车载系统的迭代更新过程中,语音交互的作用和重要性已经越来越得到车主的认可。IMS Research预计到2019年全球将有55%的新车搭载智能语音系统。
在智能车载领域,Nuance、苹果、谷歌、科大讯飞、百度等语音识别巨头分别推出Dragon Drive车载语音开发平台、CarPlay、AndroidAuto、汽车语点系统、CarLife等智能车载系统,并纷纷与汽车厂商达成合作,抢占智能车载新兴市场。
智能语音+家居
智能家居产业处于快速发展期,语音控制逐渐成为常见技能点。智能语音可以跟电视、音响、空调、窗帘、灯具、玩具等各种家用设备和智能家居控制中枢系统相结合,通过语音交互实现一个入口控制全部功能。
大数据及人工智能技术的推动、关键技术与部件成本的下降以及产业联盟标准化协议的建立带来智能家居市场规模的快速增长。Statista研究数据显示,2016年全球智能家居市场规模已经达到168亿美元,其中中国市场占7%,预计到2021年全球智能家居市场规模将达到793亿美元,中国市场份额上升至17%。
国外互联网巨头纷纷以智能家居产品与智能语音相结合的方式进入智能家居领域。苹果于2014年推出HomeKit智能家居平台,并与Siri不断加强融合。
亚马逊2014年推出的搭载Alexa的Echo智能音箱,通过语音可以实现播放音乐、新闻、网购下单、Uber叫车、定外卖等任务,根据CIRP、RBC Capital Market等公司的估计,自2014年发售以来,Echo系列产品累计销售量接近一千万台,销售额达到8-10 亿美元。
2016年谷歌推出Google Home智能音箱,搭载Google Assistant虚拟助手,积极强化Google Assistant在智能家居领域的布局。从互联网巨头的布局可以看出智能语音与智能家居的融合是大势所趋。
智能语音+可穿戴设备
可穿戴设备受硬件形态的约束,语音交互方式相比触摸交互方式具有显著优势。智能语音技术的引入可将设备从智能手机上解放出来,创造独立体验。例如出门问问Ticwear内置贴片式SIM芯片与3G通讯模块,拥有独立通讯号码并可实现实时在线,支持包括语音拨号、短信、拍照,微信语音回复,语音搜索等功能在内的全中文语音交互。
智能语音在可穿戴设备上的渗透促进可穿戴设备产业及智能语音应用的增长。苹果2016年发布无线耳机AirPods,能与苹果手机上的Siri进行语音交互。
根据市场调研公司Slice Intelligence发布的美国无线耳机市场线上销售情况报告,苹果2016年发布的AirPods在上市销售的一个月后迅速占据了无线耳机市场26%的市场份额。
根据前瞻产业研究院的预测,中国健身及运动类可穿戴设备市场规模将从2015年90亿元左右增加至2021年244亿元,年复合增长率达18%,智能语音在可穿戴设备上的渗透将促进智能语音产业规模快速增长。
专业级行业应用场景
专业级市场虚拟助手适用于多种应用场景,从实现功能来看主要形式有语音识别转写以及语音、语义内容的分析,以医疗、教育和客服三个领域为例,语音技术与场景的深度融合将为技术壁垒构建应用端的护城河。
智能语音+医疗
智能语音在医疗行业的应用主要有三种 :语音导诊机器人;电子病历语音录入与转写、临床报告语音录入与转写。语音录入大大提高医生工作效率和工作质量;患者能够通过语音电子病历系统下载打印,能够拥有完整、清晰易懂的病历;医院可以科学管理诊疗过程和诊疗信息。
随着语音病历的积累,利用大数据技术和深度学习技术能够挖掘医学案例语音资料的价值,实现智能辅助诊疗。
Nuance是全球智能语音医疗解决方案的龙头企业。Nuance的医疗解决方案已经覆盖了全美72%的医疗机构,客户遍及全球30多个国家,每年获得3亿多医患交流数据。
每年为超过50万名医生、1万个医疗机构提供服务,医疗产品也实现了多样化:临床文档改良(CDI)、临床语音识别、实时听写、计算机辅助编码、医疗质量把控、移动云计算等。
国内科大讯飞也积极布局医疗领域,2016年与北京大学口腔医院口腔数字化医疗技术和材料国家工程实验室共建基于语音的门诊病历采集系统正式进入试点,目前科大讯飞的智能语音系统已在北大口腔、瑞金医院、301医院等超过20家医院落地使用。
智能语音+教育
智能语音在教育上的应用主要围绕教育体系下“学、练、测、评 ”等核心需求,主要产品有智能语音训练与评测、互动教学等。
作为国内智能语音在教育方面的应用先行者,科大讯飞已经将智能语音技术应用在口语训练与考试、互动教学以及儿童早教智能硬件等产品,而基于语音基础上拓展开的语义分析技术则开始逐渐应用于主观题评阅等环节。
智能语音+客服
智能语音与客户服务的结合能够运用在金融、电信、交通、 智能语音与客户服务的结合能够运用在金融、电信、交通、O2O、旅游等各个行业,主要形式有 、旅游等各个行业,主要形式有智能问答、语音质检、语料挖掘、隐私保护。
相比传统客户服务,智能语音的引入能够发挥三方面的作用:降低企业运营成本,智能客服有效减少客服坐席,减少培训成本,智能语音质检能够提升质检效率,降低质检人力成本。
提高营销能力,智能客服能够实现快速反应、为重点和热点问题提供快速统一答复,确保服务标准化24小时全天候在线为客户提供问题解决方案,辅助商业决策。
语音识别全文转写能够实现全量客服质检,同时可以利用自然语言处理技术分析文本,挖掘客户信息,辅助制定企业商业策略。充分尊重客户隐私,隐藏客户真实身份,防止人工客服对客户的骚扰。
根据中国产业信息网的数据,2014年中国呼叫中心坐席总数达85万个,呼叫中心座席规模近年来保持稳定增长,随着人口红利的消失,企业对智能客服的需求会越来越强烈,智能语音在客服领域有较大的渗透空间。
智能语音在呼叫中心领域的应用已较为广泛,Nuance、科大讯飞、腾讯、阿里巴巴等都布局了相应业务。
其中,科大讯飞提供的智能客服解决方案已成功应用于电信、金融、电力、交通和教育等行业,在国内主流行业市场占有率达到80%。主要客户有中国移动10086、中国联通10010、工商银行、招商银行、中信银行、深圳发展银行等。