首页 理论教育 语音将成为移动应用基础服务

语音将成为移动应用基础服务

时间:2022-08-26 理论教育 版权反馈
【摘要】:语音识别算不上什么新鲜的技术,正如触控当初也不算什么新鲜的技术。这也说明了语音作为一种基础服务,应用的范围非常广泛。语音在细分领域内的成功,需要覆盖足够多的用户,在量变到质变的跨越中培养用户习惯,语音作为基础服务应该是免费的应用。触摸屏交互可能很快落伍智能语音交互首先改变的是移动互联网,语音识别在移动终端上的应用最为火热。

语音对移动应用来说非常重要,原因很简单,移动互联网实现的是人与人的交互,而说话就是人的本能。

可以肯定的是用不了几年,我们的双手和眼睛就会从人机交互之中释放出来。控制机器,你将不再需要敲打键盘、触摸屏幕。你需要做的仅仅是说出来,用人类最原始的方式与机器交谈、控制智能硬件。所有的设备都在静静听你说出“启动”。

需要便捷所以语音

所有科技的发展都是为了提供给人类对更简单、更便捷的生活,技术最大的价值就是让我们变的更懒。机器的目的是为了提高效率、节省时间。就像智能手机,智能手机的能力正在飞速增长,但我们和智能手机的交互手段的变化却并不明显,从键盘输入到手指触控,交互手段上并没有变革。语音输入要比文字输入来得快。Barbara Blackburn 拥有打字速度最快的世界纪录,也就每分钟 212 个单词,而说话速度最快的世界纪录得主 Steve Woodmore 每分钟可以说 637 个单词。也就是说,在人类自身的极限上,语音要比文字快 3 倍。而正常的普通人,打字速度大概在 30-40 个单词 / 分钟,说话速度大概在 120 个单词 / 分钟,依然是 3 倍关系。可见,这一比率关系是比较稳定的。

可以说,人机交互已成为效率瓶颈。要想让世界运转的更快,机器必须听得懂人的语言。

对人来说,语言交流也是最省力的手段。它可以彻底解放你的双手和双眼,你不再需要盯着手机屏幕、不再需要手动触摸电子设备,就可以使它们按照你的意愿运转,这种变化绝不仅仅意味着酷。对于在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群,语音同样是最佳的交互选择。

语音是各大公司深度研发的技术,QQ2011正式推出,其中的输入法就提供了听读,虽然反应速度还嫌慢些,但也算是赶上了这个潮流。把早已推出该项技术的“科大讯飞”的市场之路又给挡住。语音识别算不上什么新鲜的技术,正如触控当初也不算什么新鲜的技术。李开复博士曾经研发的Sphinx就是世界上最早的语音识别系统。

但是如果拿原始的那些技术给消费者,用户体验一塌糊涂。早先微软的Windows 7推出,就提出可以使用语音命令。但是由于这项功能挺傻的,谁会自言自语工作呢?所以这项功能没有普及。而在导航仪上能使用语音的功能更是用之者寥寥。只有当这些技术以适应普通用户体验的方式呈现时,这些技术才能迅速地普及开来,并深刻地改变某些产品领域。

细分领域将成语音突破口

对于智能手机或其他智能终端而言,麦克风和摄像头是智能硬件的两个重要入口, 因此语音行业也在快速发展。在很多垂直领域,语音正在成为行业发展的重要刚需。比如移动游戏、移动教育、客厅智能家居、车载终端等,都是语音交互的强需求情景。但现在无法实现全行业应用,只能在细分领域内突破。用户使用习惯的培养需要一个过程,在这个还处于早期的行业,需要选择场景应用与语音最为贴合的行业做突破。

移动互联网时代,语音的应用已经比较广泛,例如微信用于沟通对话,唱吧用于唱歌消遣,各类语音导航则用来指引方向。但以移动设备上的语音互动切入某种具体的应用,还为数不多。这也说明了语音作为一种基础服务,应用的范围非常广泛。

但移动语音需要更为蓬勃的发展,一定会从细分领域生发。最为直观的就是移动游戏,游戏是娱乐的重要构成,而娱乐又是生活中衣食住行娱五个生活要素之一。移动游戏会越来越重、越来越精品化,甚至与虚拟现实结合,需要用户更为快速、准确的操控,通过移动游戏结合语音操控,可以让用户真正获得沉浸式的游戏体验。

语音在细分领域内的成功,需要覆盖足够多的用户,在量变到质变的跨越中培养用户习惯,语音作为基础服务应该是免费的应用。收费应用、应用内付费、广告、电子商务是现在通用的营收手段, 但移动互联网行业的发展非常迅速,各种新的商业模式不断被创造出来。商业模式的产生和是一个从量变到质变的过程,我们相信在产品的不断演进和用户不断积累的过程中,一定会创造出新的盈利模式。

触摸屏交互可能很快落伍

智能语音交互首先改变的是移动互联网,语音识别在移动终端上的应用最为火热。语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。在国内,目前除了手机内自带的语音助手,还有不少第三方语音助手应用,譬如讯飞语点、百度语音助手、搜狗语音助手、虫洞语音助手、智能360语音助手等。又比如出门问问,用户以自然语言的方式对智能手机下达指令,而手机根据用户语音和用户当前的环境及上下文对用户意图进行理解,并按照用户意图执行命令。只需要说一句“附近哪里有川菜馆”,应用就会推荐附近的川菜馆。这是一种特定场合的应用。

语音交互的优势其实还不单是在特定场合。从长远来看,人类同机器的交互会向更自然的方式进化,比如直接同机器用语音交流,就跟同人说话一样(这让我想起那部电影“Her”)。要达到这样的状态还有很多要做的,语音和语义识别上还有很多需要改善的地方,深度学习和人工智能方面也需要更多突破性的进展。我相信语音是继触控之后的又一项超级用户体验工具。到这些技术都足够成熟时,现在的触摸屏交互可能就跟手写信件一样落伍了(沈禄政/文)。

 


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈