主页 > 人类能源 >Facebook智慧聊天设备虽不热门,但它的AI却不容小觑 >

Facebook智慧聊天设备虽不热门,但它的AI却不容小觑

  • 人类能源 | 2020-06-07 00:10:46 阅读量:64万+
Facebook智慧聊天设备虽不热门,但它的AI却不容小觑

承认吧,每次开啓视讯聊天,我们总得花上不少时间调整设备位置,才能确保大家不是在盯着对方的下巴和鼻孔。

从这个角度来看,Facebook 在去年 10 月发布的智慧聊天设备 Portal Plus 提供的解决方案不乏创新。

简单来说,Portal Plus 採用的智慧镜头可自动追蹤使用者,确保你不会走出可视範围,而且还会根据使用者离设备的实际距离来调整音量。也就是说,即使你聊天聊到一半,忽然起身去房间另一端拿个东西,对方也不会因此看不到或听不清你讲话。

这种体验,就跟面前有个专人为你拍摄一般。实际上,为了做到这个效果,Facebook 的工程师们的确找来了好莱坞的专业摄影师做顾问。和很多智慧手机的相机算法不同,Portal 背后的算法追蹤的不是人脸,而是人的姿势和动作。

早在 2017 年,Facebook 的人工智慧团队就已经建立了一套名为 Mask R-CNN 的电脑视觉模型,可追蹤人类 2D 动作姿态。Portal 将这套算法精简优化至小型移动设备晶片也能跑起来的 R-CNN2Go 模型。

在这个阶段,虽然镜头已经懂得跟人走,但视讯看起来还是「僵硬又死板」。于是乎,Portal 团队找来了好莱坞专家——摄影师、电影摄影技师和纪录片製作人,一方面学习被广泛接受的摄影「基本功」,另一方面,则是抛出在家庭聊天情景下可能遇到的刁钻角度,并看专业人士们会如何处理。

我觉得团队算是成功让镜头拍出比较成熟的构图,就是那种得有点技术,以及对人的行为有所了解才能做出的决策。

Rafa Camargo 是 Facebook 硬体业务副总裁,同时也是 Portal 计画的负责人。在加入 Facebook 前,Camargo 是 Google 的创新部门 ATAP的成员。

对于发展人工智慧来说,「自然」的门槛其实很高,因为那意味着机器找到了让模拟成果「像人」的关键。

2018 年的 Google I/O 大会上,打电话到理髮店预约的 Google Assistant 曾以语气词「Mm-Hmm」惊艳全场,而现在 Portal,则借用了好莱坞在观众身上培养出的观影习惯来打造「自然」感。

它给人的感觉很自然。其实他们在电视和电影中採用这种构图,也是因为在这些年里,大家发现这就是人类大脑喜欢的方式。

除了要做到「自然」,Portal 团队在设计模型时还做了一些很有意思的选择题。

譬如:一家人在和奶奶视讯聊天,突然间,孩子突然从妈妈的怀抱中跳了起来,开始到处跑,最后还去了房间很暗的角落。这样的情况下,Portal 要不要继续追蹤孩子呢?

有人从偏理性的角度出发,觉得,如果小孩跑得太快,追蹤他会让画面效果不好,所以还是别跟拍小孩了。但当 Portal 团队奶奶类使用者咨询这个问题时,大部分人都说,用视讯聊天大多都只为了见见镜头另一边的人,尤其是孩子。

Portal 团队最后还是为使用者留下了手动控制权,他们既可以用自动模式,跟拍所有进入镜头的人,或者,选择专注在特定人身上,忽略其他人。

虽然在这里,Portal 将选择权交给了使用者,但我们不能忽视的是,现在一些智慧手机的相机甚至视讯聊天会默认「美颜」,使用者看不到「原始模样」;而 Netflix 这类串流媒体服务也默认只提供「推荐内容」,想看「原始」的完整列表还要 「秘密代码」。

这些算法服务的本质,是使用者「缴械」了选择权,很多时候这不止于决策权,同时还有获取「原始」内容的权利。

也许这也是为什幺,当谈论到人工智慧服务,「信任」是使用者选择服务方的关键之一。

这不仅牵涉了隐私权,还关乎我们在让谁帮我们做选择。经过过去两年的种种丑闻,Facebook 这个的名字成为 Portal「扑街」其中一个主要原因,同时,这个名字也让一般人对安全性特别敏感。

无可否认的是,Facebook 在 Portal 背后的算法对视讯聊天体验的确带来了全新的提升,或者只需换个名字,它就能热门起来。Facebook 团队也有计划将 R-CNN2Go 这套模型推广到手机应用等产品上。




上一篇: 下一篇: