增强现实AR

现实江湖增强版

这篇文章源自Medium,作者Noah Norman,以下是王嘉俊的原创翻译让我们细心品读: 

在这令人迷醉的世界中,每一天都让我感受到生命的美好,感受到自然的神奇,感受到心灵的抚慰。我惊叹于这个世界的绚烂多彩,惊叹于人类文明的伟大杰作。

这篇文章是基于Mark Domino和Jasper Speicher 2009年的谈话升华而成,它让我意识到,就像早期互联网那样,增强现实正处于潜在的变革上。或许我们现在看到的硬件和当时并没有太大的差别,但是,时机已到,这也让我想到了那些令人陶醉的瞬间。

 

我想说,增强现实潜在的变革,和早期互联网一样面临着许多问题。如果我们能够化解这些问题,这对人类文明将是一个巨大的跨越。只是现在我们正处在技术增长的拐点期,个体对于技术决策方面产生影响似乎也越来越困难了。

我们似乎被束缚在私有产权的世界里,限制了技术改变生活的可能性。但是我仍然深信,不久的将来,增强现实将会让我们更加便捷的沉浸在生活中,只要我们能够超越所有限制,这一切都会变得不可思议。

我的结论是,无论是增强眼镜、隐形眼镜、车里的挡风玻璃、大脑植入,还是栓剂(suppositories)等等,我们都将在不知不觉中渐渐沉浸其中,享受到它为我们带来的便利性。如果你愿意和我一起探讨,那么我们就可以一同看到这个美好未来的样子。这份内容可能对你来说毫无用处,但或许有一天会在这里展开一场有关它的热烈讨论。然而,对于我来说,这个结论已经变得不再需要争议了。

除此之外,我想引用Nick Bostrom的一句话:这篇文章中的很多假设可能是错误的,但我并不知道哪一个是错的。

与早期互联网相似

现在看来,增强现实和早期互联网在部署和消费方面都非常相似。它们同样的运营模式,增强现实可穿戴设备嵌入式与“魔法镜子”或手机窥视镜等方式,也让人想到了当年互联网的布局。消费级增强现实系统被设计为同一时间只能运行一个应用程序,也和当年互联网应用程序,只能连接一个系统或数据模型一样。

 

而在内容创作方面,创作者必须为每个应用程序投入大量时间和资源才能确保最终的效果。这也是当年的互联网存在的问题,需要经历漫长的发展过程才能迎来我们今天的便捷。那么,在未来,增强现实将如何演变,又会为我们带来怎样的便利呢?让我们一同期待这一切的发展。

我可以创造独特的内容,但如果我想在Layar AR平台上展示,我必须遵循他们的用户界面后端(这并不是一个可扩展的方法),并为此提供一个可以被识别的版本。而如果我想在Aurasma、Wikitude或BrowsAR上创造内容,或者制作其他的标记来进行追踪,我就需要重新为每个平台进行设计。

在很长一段时间内,早期互联网应用程序都面临着非常多的限制。回想上世纪90年代,想要给别人发送文件必须先给他们打电话,并让其准备好启动相关的程序来进行文件的收发,接着通过拨号连接,再进行文件的传输。而如果想要和他们聊天,也需要先断开连接,再与他们进行电话聊天,暂时关闭文件收发程序,再进行正常的聊天。

虽然早期互联网应用面对着这样多的限制,但其部分力量在于允许任何的内容在任何地方都可以进行展示。这个能力从HTML开始,Tim Berners-Lee采用的标准语言SGML开始被广泛接受。很快,浏览器也随之诞生,这就为人类带来了前所未有的种种可能性。

互联网的生态系统是由创意和技术的分离所造就的。从1992年Lynx这个基于文本的浏览器出现开始,互联网的历程变得更加精彩纷呈。

正因为从内容和表现形式的分离开始,才催生了今天我们称之为互联网的繁荣生态系统。正是在这样的大背景下,人类进行了一次又一次的创新探索和标准化实践,终于创造出了具备多种程序运行功能的先进浏览器,以及可以独立设计和开发的功能齐全的应用。

当然,这并不表明我们不需要将创意和技术结合来进行专门化设计,专门化的设计是非常有价值的。只是在当前的形势下,局势的发展已经跳跃到了超越创意和增强现实内容的思考。现在,我们正在参与一场对最具实力平台进行竞赛的大战,并希望最终能够确定出事实上的标准。通过这样做,早期的进入者希望在封闭的系统中,围绕着自己的市场占据优势。

不过,似乎问题的本质已经超乎我们此时所能想象。

这些问题固然严峻,但我们可以通过标准化网页和3D图形,建立灵活的标记语言,并将AR浏览器的SDK与内容分离,来解决这些问题。虽然达成共识也许会是一个艰难的挑战,但这不是重新发明轮子,因为我们已经掌握了一切必要的元素。

 

我们可以想象到使用一种广泛采用的标记语言。同样的,独立于硬件的AR浏览器也许很快会诞生,就像我们现在使用的基于屏幕的互联网浏览器一样。

但对真实增强现实应用进行内容感知却是个更大的问题。在互联网上,用户的输入被限制在键盘和鼠标上,而AR应用却需要通过对我们的思想做出反应来提供服务。AR硬件必须在连接系统从视觉输入、音频输入、语音命令、地理信息等各个传感器的输入的同时,进行AR软件内容的传播。

然而,这种系统会对信息流产生何种影响呢?当然,我们可以想象一个应用程序会基于你的位置和方向做出一些相关的操作现在,我们已经有了头戴式设备来进行地图标记,但这种应用已经变得单调乏味。

在互联网上,我们可以通过超链接来搜索远程托管的内容,但在AR世界中,搜索并不是那么容易。因为在这个世界里,我们没有鼠标,所有我们输入的数据来自于视觉和传感器,而不是仔细输入的文字。因此,超链接常常无效。

我们需要AR搜索,它是实现我们大脑所思和信息融合的第一步。听起来很简单,但实际操作起来非常困难。

让机器理解语义

让机器理解所看到的东西是一个百万难题。我不想把它们一一列举出来我不想列举出让机器理解所看到的事情的百万难题,可能是因为我的能力不够,也可能是因为这篇文章并不是直接关于机器学习和计算机视觉。

 

但这些问题将是未来最重要的挑战。当机器能够识别出物品、地点、其他用户等具体实例时,这将是AR未来的难题。

一旦AR系统能够“看到”周围的环境,并能够对其进行反应,这将给我们带来一个令人兴奋的世界。例如,当我戴上AR隐形眼镜时,它可以获取颜色、深度、大小、地理位置、声音、温度和高度等信息,并根据这些信息来识别周围的物体。

目前,小型的AR系统需要创作者输入3D模型和2D文本才能驱动。应用程序会搜索视频流,来匹配文本和数据库中的物品。一旦它能够识别出物品后,则会呈现设计好的场景。

AR技术的回应非常有限,在大多数情况下,只能将视频或3D内容叠加或识别在预定义的空间关系中。

为了解决当前系统的固有问题,增强现实反应和输入之间的对应关系需要个人作者的决定。在这个封闭系统中,利益相关者层出不穷,有很多案例可以证明。

假设未来的AR浏览器不再依赖于内容,它将在各种各样的硬件设备上运行。当我们注视着一只可乐瓶时,会发生什么?首先,AR系统会以其自身的方式识别这个罐子,像我们的大脑一样将其归为“可乐罐”的类别,并告诉我们关于它的更多信息,如罐子表面的凹痕、是否打开、生产地点和过期日期等等。

更重要的是,这种识别方式更加抽象且更加强大,相比现在的文本检索,具有更多的意义。

以最近的Google Cloud Vision为例,它提供了更高效、更准确的图像识别技术,这使得AR的未来变得更加迷人。

Google Cloud Vision API使用机器学习来进行图像识别,这类似于过去的Google Goggles,可以给实际的图像添加标签,并在地图上添加坐标,实现人脸识别和OCR等功能。通过对这些识别进行堆栈,并配对置信分数,开发人员可以利用Google的能力来确定图像内容。随着系统对更多具体的物品进行标记,甚至将世界上的名称与分类进行连接,例如将WordNet和ImageNet联系起来,图像识别的能力将会不断扩大。

不管执行的方向如何,我们做出了一个关键的决策:下一步会发生什么呢?当系统检测到可乐罐的存在后,它会展示出什么呢?请记住,未来这些系统会被广泛应用,难道不应该有一些令人惊叹的事情发生吗?

但是,对于我来说,是否可以运行一个AR广告屏蔽的插件?或者购买一个服务来减少程序的赞助商内容呢?当我走在时代广场时,抬头看到三星的广告牌,我是否还能看到一个“真实”的广告呢?

问题在于,我们所拥有的符号学语义学、网络符号学。让系统识别符号似乎变得有点琐碎,相对于一些更复杂的问题,如环境中物体的意义,甚至牵扯到知识产权的问题。

然而,当所有权和网络空间中的知识产权融合在一起时,问题就变得更为复杂和棘手。这一切渐渐变得“Ugly”。

然而,我不相信包括商标、知识产权和隐私纠纷等话语权问题的处理会很容易地扩展到VR领域。

在这些问题中,所有权和话语权被某些私有者主导和游说律师的利益所支配。我不需要进一步解释,但这并不是最好的结果。然而,为了可能性成为可能,系统需要被设计成依赖于有话语权的中央权威,并具有利润的激励机制。

p>至今还没有发生像DNS一样的事情,因为还没有人意识到在ICANN的位置上所带来的真正价值,直到为时已晚。然而,这并不意味着这种情况不会发生。有一种猜测是,微软对生产AR硬件的兴趣可能不仅仅局限于设备本身的利润。这不是他们的玩具。他们与Magic Leap一样,希望拥有自己的传输管道,从生产到内容到分发,所有东西都通过这里进行。Google最新的CV服务也可能有类似的假设。

这给了我们技术背后的支持。我们需要独立于文本、传感器鼓舞、上下文感知、始终运行的消费者端AR系统来解决这些问题。这些问题的解决非常重要,最初解决这些问题的人可能会获得那个圣杯。

技术的背后

没有键盘的操作系统

正如Google演示的那样,能够运行各种随心所欲的代码的浏览器和操作系统之间的区别并不大。就像某些操作系统需要使用Windows管理来保证GUI的良好运行一样,我们的AR系统也需要确保以一种优美的方式来展现内容,考虑到我们的口味以及大脑传感器的带宽。

 

例如,当你开车听纽约时报的时候,即使在视野的角落里有一个小型的视频聊天窗口,你也会感到非常舒适。但当你在高速公路上行驶的时候,你会觉得这个聊天窗口带来的影响可能是负面的。相反地,当你在家里的时候,你也许会愿意享受更加沉浸式的体验,但你不会希望突然弹出一个提示——比如说你该交煤气费了。

在用户定义的背景下,这就像是当前智能手机中的权限(Permissions)。我们可以授予特定应用程序访问我们注意力的权限,而在特定情况下,屏幕也会弹出提醒。

开始的契机

这是一个开始,特别是当一些浏览器提供了自己的通知和权限设置时,这也成为了通常操作系统的功能。

 

先不考虑输出的问题,操作系统如何接收传感器的输入和上下文信息?别忘了,我们没有键盘和鼠标,我们是通过自己对这个世界的感知来驱动这个系统的。

两种途径

正如我们一直期待CGI的智能在电影中超越实时系统的能力,它将会始终超越用户端系统的能力,掌握视觉处理和任务搜索,感知周围的世界,以满足我们对速度、正确率和带宽不断增长的期望。

 

这意味着我们的设备将部署在低延迟、高带宽的连接上。通过刺激和上下文的理解,它们将能够获取更多用户状态、联系人、历史记录、喜好和习惯的信息。这是一种反应,就像现在的设备和互联网所做的那样。

然而,由于这些限制,目前所有潜在的方法都是相同的。在返回结果的性质上,可能会出现问题,而问题的核心在于所有权和利润的动机。

在AR生态系统中,识别服务是由一个非盈利或其他中立的实体组织提供的。服务器会不断吸收这些信息流,并从提供的零散联结刺激中进行推断。

这是骑着自行车的你,那是位于124鹰街的你的朋友威利,那边是西方。这是一辆大货车,那是一条街,这是一块石头。这是一盏交通灯,它显然是绿色的。

这些离散标记的集合,会通过管道返回到硬件中,作为对世界的标记,以准备在用户的应用程序中得到解释。

这意味着刺激的识别和增强现实解释,将由用户端的代码持续作用,就像现在的互联网一样。在一个物理分布式的网络中,相同的组织将被某些广泛联系、同意授权的DNS控制。关键是,这意味着我们可以利用这个技术,以一种更加和谐和纯粹的方式来改变世界。

在这个系统中,识别和解释的任务将被分离开来。

当然,这样的处理能力会为供应商带来巨大的成本,无论是在开发还是经营费用方面。因此,必须找到一种方法,使供应商能够通过某些方式收回成本。在ICANN的情况下,这项服务是通过非盈利组织提供的,现在看起来运行得还不错。它象征性地收取注册费用,而最近还拍卖了一些域名。

我们正在讨论的系统类型并不会像根DNS服务器那样简单地发展和维护。就像上面所讨论的那样,现在很难定义一个非盈利组织可以售卖什么。即便是拥有深度学习工具和GPU集群,带宽也不是免费的。

我们可以很容易地想像到,这些提供识别服务的公司可能会垄断市场。这些公司将通过与消费者的硬件、软件服务紧密联系,寻求垂直整合。就像我们现在看到的智能手机、游戏机和阅读器一样。

一旦这个循环被关闭,那便难以阻止供应商向报价最高的公司提供前所未有的用户访问权。

这意味着我们可能会看到无数的货币,赞助商的内容将优先展示,包括产品、地点和人物的信息,甚至是一些具体的文字信息。例如,当你看到车的引擎盖时,会出现车辆维护的手册,或者是某一个零售产品的评论。想象一下,有一家拥有惊人的经济实力的公司,它能够完全控制一个始终开启的视觉系统,嵌入到成千上万的消费者的注意力中。至少目前,我们还可以选择不看电视广告。

想象一下,当这些应用程序变成了盈利的公司,或者处于分布式的生态系统中时,会发生什么不同的事情。

以微软为例,Harris证实了微软对HoloLens的意图,是通过服务器同步所有用户的体验。这些多用户体验是一种共享的梦境,这样可以大大促进AR技术的广泛使用。

服务器端的应用程序和预渲染的内容,将进一步加强垂直整合,避免各地客户端的反向工程或越狱,并为客户提供更好的用户体验。

我们期待,将硬件转化为简单的终端,并将其免费提供服务。

如果我们共同努力

我们否定:国王、总统和选举。我们相信:共识和可运行的代码。这就是IETF之道。

 

我们必须承认一点,除了最坚定的自由主义者,利润动机和垄断是万万不可取的。

我们还必须承认一件事情,除了最偏激的左派份子,政府无法提供足够适应现代和复杂系统的服务。最近,那些自诩为政治家的人都表现出他们的互联网知识的欠缺。

即使像ICANN这样的非政府、非盈利组织来规范识别任务,我们仍然会面临各种微妙的形势,包括审查制度、文化规范、禁忌、地缘冲突以及政府干预,这些都超过了Google所能应对的范畴。

我们在世界范围内面对着无尽的挑战。这是一场永无止境的斗争,没有更高的权威可以解决争议。

有些人认为,解决识别问题的规模,需要用户逐渐增多的输入和类似于reCAPTCHA的分布式OCR项目。在深度学习技术出现之前,语音识别和计算机视觉问题都很复杂,难以应对。

早期的方法试图将复杂的识别问题分解为更小的不相关任务。深度学习虽然更加独立,但仍需要大量正确标记的数据集,这需要培养对真实世界的经验。这意味着,人们需要先进行标记,这项工作可能超出任何富豪能够承担的最大限度。

深度学习近年来在各个领域都很成功,但寻找合适的训练材料仍然是一个障碍。

即便有一个合适的组织,去训练一个能够对各种任务做出反应的识别系统也不便宜,而除了维基百科之外,我我们尚未看到年轻网络实施大规模的自组织任务的例子。这不是寻找谁来支付费用的问题,而是必须有人来驾驶这艘船。

但是,如果我们从最近的假设中发现了错误,并且您也认同我的看法,那么什么时候开始在互联网协议层上建立一个结束被单一组织控制的垂直实体的组织呢?这个组织会是什么样子的?

甚至可以想象,未来这个角色会由一家营利性公司承担吗?

还是由一个分布式组织、一个标准组织、一个政府实体来扮演这个角色?

[推荐阅读]

1、Google Venture合伙人:哪些机器人公司值得投资? 深度分析

2、揭秘Google虚拟现实:如何与葡萄酒竞争?深度分析