微鲸科技副总裁汪正贤:人机交互如何应用于智能电视
6月10日,「极客公开课」再次开课。这一次我们邀请到了微鲸科技副总裁汪正贤先来,来和大家一起分享了目前智能电视行业的发展的现状以及未来的趋势、智能电视交互的关注点、应用技术开发流程及对电视的技术展望、微鲸 AIR 的技术特点等四个方面的内容。
什么是「极客公开课」?
1 位技术产品大牛和 10 位优秀技术产品人围绕技术产品相关话题,面对面深度分享和讨论,共同创造更优的知识与更高的学习效率。
而现在,这种深度的交流方式属于每一个人,知乎 Live 同步线上实时问答,随时随地参与提问互动,与数百人共创一本知乎 live 版的「课堂笔记」。
每周 1 次,全年 50 场,极客公开课,推动产品人的自我迭代。
以下为本期课堂笔记精华摘要:
智能电视行业的发展的现状以及未来的趋势
大家看到电视实际上是两个层面的含义:一个是电视机本身(硬件),另外一个是电视内容。那么电视机发展到今天,会不会消失呢?来看看它的发展史。2004 年以前基本上都是 CRT 时代。一直到 2005 年,开始出现了 LCD,称为液晶电视,其实是以灯管做背光。到了 2009 年,出现了 LED 做背光的液晶电视,一直延续至今。
实际上到今天为止,已经开始出现 OLED,但这么多年过去了,显示部分其实没有太多发展,都是在强调画质、形态。电视机本身可能不一定会以实体形式存在,但用户通过电视机来获取资讯的过程依然会存在,只是更加的便捷化、无形化了。
电视行业发展了这么多年,从相关数据来看,中国大概有 6000 万台左右的出货。全球大概 2 亿台,而中国承担了近 80% 的电视机的生产,无论是出口还是内销,80% 都是在中国做的,大概 1.6 亿台左右,市场非常庞大。国内包括海信、创维、海尔、长虹、康佳、TCL 六大电视企业竞争了 30 年,但电视到今天为止没有产生非常大的寡头,整个行业的竞争十分激烈。
有关电视行业的发展趋势,我们总结成四个字:「薄大精深」。薄是什么?简单理解就是,边框做的更窄了,厚度也更薄了。大是尺寸越来越大,今年的入门机尺寸应该是 60 寸,去年是 55 寸。那么这种入门机尺寸怎么来的,有两个动向:一是消费者有需求,另外一个则是从供应链角度出发的。
众所周知,供需需要达到一定平衡。产能过剩就会导致价格下跌,而这是不被供应链端所接受的。想要保值,就需要将尺寸切大,来消化小尺寸产能。而一条 8.5 的线投资额是 200 亿人民币,每增加 1 寸,48 寸到 49 寸就会吃掉一条生产线的产能。所以 200 亿就这样被吃掉,供需又再次达到平衡。
那么大家都会转向做什么呢?微鲸会去做软件,做 AI。从微鲸的角度出发来讲,为了达到消费者快速获得资讯的目的,需要把软件、硬件调试到最佳的状态,所以说软硬一定要实现很好的结合。
智能电视交互的关注点
智能电视交互的关注点,微鲸放在了三个方面:语音、图象、动作。以上讲到的三个方面,其实很多厂商也在做,但是我们要把所谓的 AI 去聚焦化,去关注语音的互动、语音搜索、语音的交互、语音的识别以及语音的控制。
其实微鲸成立两年多,从推出第一代产品开始就在做语音。现在有很多做语音、语译的公司,比如说科大讯飞、搜狗等等,但是它们都是在做模块,我们要做的除了把这些模块整合应用之外,还要根据自己的定义去优化这些模块。
比如,我们跟科大讯飞深度做方言。科大讯飞去做一部分的语译,叫做词库的收集、整理。但是实际到最后下放到用户层面,还是要通过语音的输入、输出、反馈。把这些做优化,才有机会做得更好,否则很可能出现可以识别,但反应速度很慢。
图象,之于人脸识别,它可以做加密,之于表情,它可以识别你的表情,识别你的心情。人脸识别这部分,我们和微软合作,已经走到了商用阶段。这部分技术研究微软做得比较好,他们把人的表情定义成 24 种,定义完之后,图象随着表情在动,它就会看你的心情是什么状况,来给出回馈,这实际上是交互的一个重点。
我们是做应用技术的,我们不做技术开发。同理,我们也不做芯片,我们拿到芯片之后,要解决的是如何能把芯片很多性能发挥到极致。我们的强项是了解消费者,知道如何通过数据的采集,反馈回来,去定义对芯片的诉求。
动作交互为什么这几年会提的特别多?因为包括电视机在内的很多设备已经标配摄像头。摄像头除了可以拍照,还可以拍视频。视频可以捕捉动态动作,拍照可以捕捉静态的表情,不断地拍、不断地算,机器就会知道你的动作变化。
动作交互有什么用?大家经常在讲话当中有手势,弯腰、握手这样的动作,这样有一个好处就是把场景更自然化。语音是最自然的交互方式,而动作也是一个非常自然的交互方式。
应用技术开发流程
微鲸的产品定义和开发流程,有两个重点:三角形研究和供应链研究。
做消费类电子的厂家都要设计比较多的几部分研究,为什么会这样?因为消费电子竞争非常激烈。你的对手是谁,这个市场怎么样?你的增长空间在哪里,你的红海、蓝海在哪里?你的用户画像、定位在哪里?你所掌握的供应链资源是什么?
只有把握好这些,才有机会做一个完整的定义,这就会涉及到整个产品类的研究。包括输出一个关于产品模型的讨论,无论是软件、硬件还是软硬一体化整体产品的定义,微鲸都是遵照这样的方式做的。
看上去很复杂,其实不复杂,把前面的研究做好,自然会有一个模型输出。有模型输出就会有模型论证,但是整个论证过程是跟供应链密切相关的,不会单独存在。比如对于合作的芯片厂商,我们要关心它的供需关系平衡,是否能达到我们的诉求。
不懂技术其实很难做产品经理,同样的不懂市场也很难做产品经理。入行做产品经理,到最后重点一定是产品。至于产品是何种形态,其实并不重要。重要的是要把它阐述出整体的模型来,要把它做成什么样子,你怎么画等号等等。所以会有一个对应的流程。
对电视的技术展望
对于电视硬件的一些技术展望,微鲸认为这几年应该会走四条路:轻薄化、无边框、新型显示、远场语音。
轻薄化,就是产品做的轻了、薄了。这涉及到大量关于材料和工艺的研究,比如说电视机做薄,薄 0.1 毫米会怎样,薄 1 毫米会怎样,这里面有大量的应用技术做开发。无边框技术与上游关系特别大。做无边框会带来很多难题,边框都没了,对它的保护、漏光的控制等都需要很多技术性的开发去支持。
新型显示可能会诞生出一些不同的技术流派。CRT 跟 LCD 是两个技术方向,一个是示显管,一个是液晶,是不同的流派。而 OLED 和 LCD 也是两个不同的方向,不同的流派。
轻薄化带来的是材料革命和结构设计的革命,以及光学的革命。比如用航空级的材料,可以更薄,而且强度更好。列举三种新型显示包括:现在常见的 LCD,比较贵的 OLED,已经在开发但还没有完全产业化的 Micro LED。其中 LCD 是被动发光,而 OLED 和 MicroLED 是主动发光。MicroLED,就是小间距的 LED,它的工作过程,需要大量的硬件和软件算法的组合。
OLED 是现在还没有完全普及的技术,OLED 存在的一大问题是良品率。手机产品也有很多采用 OLED 屏幕,而它的屏幕相对较小,在产线上切割的时候,可以把 OLED 的坏点切掉。但是液晶电视屏幕要大很多,要避开坏点,产能就会受极大的影响,所以导致 OLED 现在成本居高不下。
最近又出现了 3D 打印的技术,把 OLED 打印到平板上,哪个点坏了就把它拿掉再打印上去,这是提升良率的方法,但还停留在实验室的阶段,没有正式的产业化。当然 OLED 这几年走过来以后比以前的良率提高不少,但还是很低,所以到平民化的水平还有一段时间。
MicroLED 初期的设计是解决了产能的问题。但是像素很小,如何在一个像素当中集成三只灯,是一件非常困难的事情,这个问题还没有彻底解决。不过随着三星以及 LG 分别在 MicroLED 以及 OLED 上投入重金,我们认为以上者两块技术将突飞猛进。
有关远场语音 微鲸是怎么做的
微鲸认为,通过遥控器来实现语音交互,能解决很多问题(比如遥控器的成本并不高),但借助遥控器属于不自然的交互方式。因此,远场语音成为未来的发展趋势。远场语音的一大难点在于,当环境声音比较复杂的情况下,如何来实现聚焦识别。另外,如何应对网络状况比较差的情况同样是目前存在的问题。
提及应用,语音交互在开关机这个动作上同样很重要。实际上,在开机状态下,利用语音控制关机很容易做到,但如果在待机状态下,你想要通过语音来将电视唤醒很难。
为什么后一项很难?根据我国的能耗规定,电视待机功耗要小于 0.5W。这种情况下,所有的主系统基本上都会停止工作,如何在待机的低功耗下把电视唤醒,是微鲸目前在做的。和以往的做法不同,我们在硬件部分做了改变,而不是仅仅依靠软件去实现。
微鲸的语义识别由硬件来做,当然这里有个模型。我们先会做软件,来完成样本采集。之后要做处理,通过不同的算法测试,建立一个深水的模型。然后开始仿真,仿真了以后,会把它变成硬件,继而变成电路。
我们做以上这些工作的目的,就是为了解决功耗问题。利用硬件的改变,实现通过所接收到的信号来唤醒主系统。另外,像 Facebook、亚马逊在做的把软件的算法变成硬件的电路这件事情,我们现在也已经可以做到。
那么,为什么软件可以变成硬件?实际上声音就是一个信号,只要把这个信号转变成机器可以识别的语言,就变成硬件了。这部分,我们是和芯片厂商一起来定义的。简单来讲,我们在主系统之外,又加了一块小芯片。
新增这块小芯片之后,目前实验室测试结果显示,待机的时候是 0.37W,完全符合国家的要求。而量产的时候应该能够达到 0.43W,可应用性非常强,这些就是关于原创语音的内容。
其实远场语音存在诸多难点。首先是需要尽量做很多的声道,尤我们现在做四只麦克风,待机状态下要实现唤醒操作,有效距离为 3.5 米。但如果要把有效距离增加都 8 米,可能就需要 8 支麦克风,才能做到。
另外多麦克风所面临的问题是,接收到声音信号,其实是 8 个声道在输入,每个声道的方向不一样的,需要消除回声。而多个声源,怎么分别把捕捉出来也是一件很难的事情。微鲸不太去强调人工智能,我们强调一个个环节,只要把这些环节一个个去解决了,才有机会说,你做得非常好,比较自然,自然而然就变成人工智能了。
微鲸 AIR 的技术特点
微鲸把 A 系列形容为空气,它非常薄(醉薄 A 系列新品最薄处只有 4.9 毫米)。为什么要将电视做这么薄?我们当时定义的一个初衷,「薄」是一个大趋势。除了展示科技之外,大家眼前还是会觉得挺炫的,很有科技感。另外,不做最薄的产品或者是更加薄的技术演练,是没有办法把普通产品做薄的。需要有一些难度更大一点的设计和工艺,以后才有几乎把普通产品做得更顺。
而增光边、保光板、反射片,就是超薄的基本架构。实际上把产品做薄,并不算一件容易的事情。要将电视做薄,意味着从材料到工艺都要进行变更,这就涉及到了硬度非常高的玻璃导光板的使用。
但它只是材料而已,微鲸要做的事情还很多。首先我们需要根据图纸算它的印刷网点,继而进行大量的印刷工作。但印刷也并不是每个厂家都能做,需要找合适的供应商去做。从架构来说,把塑料换成玻璃,保证硬度的同时,厚度也可以做到更薄。
除了上边提到的强度需要得到保障,做薄之后的可靠性也是需要去考量的。特别是长时间观看的情况下,如何保障散热性能,是一个难题。在材料的选择上面、在结构事实上面,甚至包括散热设计上面,微鲸都有自己独到的地方。我们量产的产品热量控制表现的非常出色,连续开机 4 个小时,变型量仅为 1.5 毫米,非常小。
机身做薄之后,带来的另外一个问题是,如何能把声音控制的相对比较好?在较小的空间里面声音比较难处理,我们做了一个厚度只有 12 毫米的扬声器阵列,堪称电视音响界的杜蕾斯。
我们产品经理定义我们要做一个三极限超薄的产品。最厚的地方是从后面屁股背板到玻璃前面 25 毫米,最薄的地方是上部的屏幕 4.9 毫米,离墙的间隙 3 毫米,加上 25 毫米,最厚的地方只有 28 毫米。而三极限超薄产品还要能够挂墙,挂墙以后离墙的距离只有 3 毫米。
一旦有声音出就会碰到墙壁的反射,所以这里面就有很多声音很乱,通常来讲音效很难得到保障。我们知道,扬声器需要通过膜的振动来发出声音,机身太薄没有振动的空间或者是振动的空间很小。为了解决以上问题,微鲸花了很多时间来研讨模型。
机身做薄之后,低音如何保证又是一个难点。微鲸做了一个扬声器的阵列,做了等压空气流,振动的时候会同时压缩空气,让它推动被动盆。通过技术突破,来保证空气气流过去全部一致。传统的设计会有一些衰减,用了扬声器阵列了之后,衰减会更小。此外还需要进行技术调整。例如靠墙近了以后声音散、脆,要把它调回来,使得声音自然反射到墙上不会太脆,变成浑厚。
扬声器的选材同样很重要。微鲸从创立到现在,中低音一直选择羊毛纸盆或者蚕丝膜两种材料。这两种材质所带来的好处是,声音很脆就脆,高音更尖,低音更沉。但做极薄的设计,我们选了稀土。这样它的磁性是普通的 10 倍,磁性大了以后给适当的功率,强度大就会增大。
通过以上技术攻关,前面讲到的诸多难点获得了比较好的解决。我们将它与索尼 9300 进行了对比测试。整体来说,我们的 A 系列产品低音生成有利,中音很饱满,高音很通透。不能说完胜索尼 9300,但是跟索尼 9300 相比,确实在软硬件的调试方面更出色一些。
总结
我们始终相信技术能够改变生活,所以很多技术都应该是服务于整个生活的形态。微鲸是一家媒体公司,我们在做媒体的过程当中,更多是从内容出发。但是总体上,我们要把软件、硬件做得非常顺。
微鲸背后有一个人工智能团队,我们请了德国的专家,也在牵头做很多大家比较关注的交互形态。今年 6 月份我们会在北京做「未来之家」,当中也将有很多关于智能家居的 Demo,来向大家展示我们的一些技术以及想法。
以上就是本次公开课的所有关键内容。