机器视觉市场腥风血雨,华捷艾米想做嵌入式的3D感知芯片

近几年,在机器视觉领域内,一直出现大公司并购、整合小的技术公司的情况,像苹果、Facebook、微软等大公司都在收购或者投资的三维视觉技术公司:Markets and Markets的一份报告也显示,预计到2020年全球机器视觉市场规模将达到125亿美元。麦姆斯咨询也显示,预计2016~2022年间3D传感器市场规模的复合年增长率为26.5%,2022年将达到54.6亿美元。

同样是专注于机器视觉研发的华捷艾米联合创始人沈瑄表示,“这个市场一旦到了消费级,成本降下来之后必然会出现很多的并购,技术的整合,不过现在深度传感器市场还很小,大鳄还没有进来。”

深度传感器市场的腥风血雨
高交会上,华捷艾米的展台也吸引了非常多的年轻用户,在电视大屏前,手舞足蹈地和屏幕内的游戏内容交互:身体动一下,游戏内的人物位置也会相应发生变化,当你跳一下,相对应的游戏人物也会做出跳跃的反馈,这是华捷艾米基于自研芯片打造的AR体感交互产品IMI-3DAR摄像头,芯片中的骨骼跟踪技术能够准确、实时的识别玩家的动作。

IMI-AR一体机

据沈瑄介绍,目前华捷艾米的产品主要有三类,第一个是相关项目;第二是整机产品,他们将OTT盒子和摄像头做成了一体,主要应用于教育或者学习领域;第三是小型化手机模组。

“虽然AR摄像头应用于手机领域的市场是应用于TV市场的十倍,但由于手机集成化很高,添加体感技术这一功能相对较难。相比之下,AR体感技术嵌入TV则比较简单,嵌入良率高达98%,所以短期之内,我们先推出嵌入TV的产品,将其做好之后,逐步向手机领域拓展。”

说到捕捉三维视觉信息,主流的三种技术方案:双目、结构光以及飞行时间(TOF),从功耗、准确率以及环境适应性来说各有优劣。华捷艾米的技术主要是结构光的方案,以飞行时间为例,“TOF的精确度是要比结构光要高的 但是它的成本、功耗和结构光相比就高很多了。”

“我们只能说是在某个时间点,选择最优性价比的技术方案,而在当下,结构光无疑是最佳的选择,”
华捷艾米也收到了收购的橄榄枝,“我们不会卖的,现在这个市场才刚刚起步。”

嵌入式的方案是消费端的趋势

华捷艾米的3D感知芯片研发已经进入第三代,沈瑄表示,“明年我们要做16nm制程的,18年11月份第一批会正式量产,现在的重点是做嵌入式的方案,包括嵌入到电视机、平板以及手机中,这一代芯片的量产会在明年3月份。”在苹果iPhone X的Face ID带动下,基于深度传感器获取深度信息的传感器厂商正在迎来发展的黄金时间,而像华捷艾米的嵌入式方案是一个不错的选择。他们的嵌入式方案主要包括三大块:芯片、光学元件以及软件的SDK,沈瑄认为这种嵌入式的方案是消费端的趋势,苹果正在将这股风带起来。

“主要推的还是手机厂商,除了提供硬件之外,人脸、手势的路径规划算法都会融入到新的芯片中。”
在手机的人脸识别这块,虽然目前也有手机厂商推出人脸识别解锁,但是和苹果的结构光方案相比,差距很大,简单的2D图片都可以蒙混过关,用沈瑄的话说,安卓市场要等到明年9、10月份才能逐渐拥有类似于Face ID的人脸识别功能。

我们认为AR肯定会火!

眼瞅着2017年又要快结束了,去年的这个时候,VR遇到了高潮后的第一波落潮,一年的时间内,整个VR硬件、内容生态圈并没有发生大的变化,相较之下,AR反而有种迎头而上的势头。在沈瑄看来,VR行业在15年起来以后,走下坡路无非就两个主要原因:

“硬件的不成熟,电池、眩晕的问题,如果你要达到很好的效果价格就上来了,而消费级市场对这个是最敏感的。其次是体验的问题导致硬件的普及率不高,反向又造成了内容和CP的投入不够,没有终端,我做的游戏推给谁呢?”

沈瑄认为在VR发展走到拐角的时候,苹果解决了AR的问题。“我们认为AR肯定会火!”“苹果把结构光做成嵌入式的3D相机,通过iPhone推广出去,让这个技术和设备来到了普通消费者身边。第二,他们有App Store,App Store的聚合和引领力太大了,现在每周有几百款用ARkit开发的应用。以日区为例,AR排名第一的应用周下载量都是2、30万。”

华捷艾米选择在这个时间点做一些事情,“其实我们对华捷艾米的定义是,未来我们做的是AR芯片、算法,像光学模组这些任何一家手机模组厂商都可以去做。”对于华捷艾米来说,他们最核心的永远是算法,这也是他们最根本的价值所在。“像谷歌也在做这块市场,他们要在19年出一个10nm的芯片,我们知道走这条路肯定是对的。”

未来,最普通的摄像头也能获取三维视觉信息

由于机器视觉是非常基础的技术,所以它应用的场景非常多,比如电视、游戏健身、教育培训、机器人、医疗康复、智能安防以及IOT物联网等领域。

未来在深度传感器领域内,消费级市场会越来越大,但是围绕仓储、物流的企业级市场也有很大的机会,以京东的无人仓储为例,机器人自动运货送到定点,都需要基于深度传感器获取环境中的深度信息。沈瑄认为,“随着计算能力的强化以及技术的发展,以后甚至是最普通的摄像头也能完成对三维视觉信息的获取。”

以人类为例,我们的大脑皮层有50%的区域是用于视觉,在经过几亿年的进化以后,我们的眼镜可以在150毫秒内将看到的场景识别理解出来。但是,现在要让机器只凭简单的摄像头做到这些是不可能的,首先它们的二进制计算方式和人脑神经元就有很大区别,现有的计算力无法在这么短的时间内识别出,但是随着像模仿人类大脑的量子计算机的发展,或许十年以后,两个普通的RGB摄像头就可以识别出深度信息。