神州数码CIO沈旸：元宇宙是开放的数字世界

时间：2023-04-18

｜引言｜

今天讲一讲2021年最热门的话题：开放的数字世界——元宇宙。

PART、1

为什么要讲这个话题呢？在IT圈子里有一个永不停休的争论：什么叫数字化？什么叫数字化转型？之前的信息化是不是过时了？最近几年出现了很多概念，比如数字中台、数字孪生、数据湖等，那么传统的ERP系统是不是该被业务中台给替代了？传统的CIO们是不是要赶紧把CDO的Title挂上，是不是未来只有去干业务了，或者想各种办法把数据变现了？

我一直是个理工男，对各种文字概念历来不是特别感冒。但是平时在工作中，为了理解这些概念的真伪，我还是希望能够尽量简单地去理解问题。对于数字化，我也想从更本质的角度去理解它，所以就想看看最纯粹的数字化应该是怎样的。目前最“纯粹”的数字化场景，大概就是元宇宙了。

我们社会可以简单地分为物理世界和数字世界，现实社会中，我们有人财物和这三者之间的各种组合和价值交换，数字世界里也有信息熵和能量。一个比较接近原生的数字世界，可以是一个游戏的线上运营，它需要的能量可以靠太阳能，里面的玩家也可以是AI或者人类玩家，游戏的代码本身是数字世界的一部分，经济体可以用区块链来设计，这样的系统其实可以完全不依赖于人类。那么在这样的系统里，业务需要怎样进行设计呢？现实中的很多数字化转型都是物理世界和数字世界的融合，互相嵌套，有些环节在物理世界完成，有些环节在数字世界完成。不同的行业这个比例当然会完全不一样，100%的数字化那就意味着可以跟人没啥关系了。

对于数字原生的场景，可以借鉴这几部电影——《黑客帝国》、《西部世界》和最近的《失控玩家》。这三部电影很多朋友可能都看过。它们其实都讲了一个数字世界是什么样的概念，元宇宙是什么样的概念。最纯粹的数字世界是什么？比如像《Matrix》里面，大家都生活在一个数字世界里，跟物理世界完全脱离。我们离这样的时代还差多远？

PART、2

我个人最喜欢的是《西部世界》，每个人看完一个故事后都会加入自己的设想，所以我的理解可能会跟原著不太一样。《西部世界》的故事提供了一个走向元宇宙的方法论——通过观察一个人，通过你看到的一切、听到的一切、触摸到的一切、感受到的一切，通过AI模拟的行为，一遍一遍地模拟，一直到误差为零。

技术圈里的很多朋友喜欢打牌，如果一个AI记录你历史上所有打牌的行为，通过AI观察你的面目表情和一些身体特征，那么在记录次数足够多的时候，最终这个AI大概能模拟出你的出牌风格，毕竟人脑也不是个无限的信息容器。这样的技术，在很多游戏或者自动驾驶领域其实也有一些实践。比如有些智能汽车一开始是把程序放在GTA的游戏中去训练，也有的智能汽车通过摄像头不断观察周边环境并记录人类的操作，和AI自己的判断进行不断比较，直到最终AI也能通过有限的信息去开车。

如果全世界所有的人都在教AI怎样开车，自动驾驶的落地速度会非常快，哪怕只是依赖于摄像头。这个在一些新的智能汽车里已经有很多的实践，大数据的训练和背后训练让迭代速度非常快，而且车也是一个相对标准的操作对象。

那么走向元宇宙的话，需要一些什么样的技术落地呢？

PART、3

我们以通信技术的迭代为例。1G时代是模拟时代，到了后面2G/3G/4G通信的带宽越来越高，延时也在降低。从文本时代到视频时代，发生了很多变化，在4G普及后，视频和短视频的普及速度非常之快。今天很多人想搜索信息时都会去短视频平台搜，因为视频提供了一个更加真实的场景，它的信息损失和偏差是最小的。以前在企业里，有些员工非常擅长做总结和写PPT，不同人给不同人写和展现的PPT效果千差万别，因为大家理解文字和逻辑的路径都是不同的，就像每个人对数字化这个概念都有自己的理解。大家也可以看到在微信朋友圈里，人们对图片或者视频的点赞数量一般是远多于文字和文章的，因为图片和视频更直接。到了视频时代，哪怕是最普通的员工，用视频记录的真实场景也能把原本的含义表达出来。

那就先以视频为例子，如果AI需要关于你的所有数据来做训练，需要哪些呢？需要多大的数据量？需要多高的成本？如果本地无法处理，是否可以在云上计算这些数据呢？我们要考虑这些参数：

第一个参数是人眼的分辨率，人眼的分辨率大概是5亿像素，这并不是一个高不可及的参数，现在的手机上已经出现了1亿像素的摄像头了，基本上也能达到要求。

第二个参数是刷新的频率，人眼在120赫兹以上，几乎是察觉不到变化的。电影24帧大家不会觉得卡顿，玩射击游戏的电竞屏做到144赫兹、240赫兹基本上也可以达到要求了，人类对世界的采样并不需要一个连续的采样，只需要有限的数据就可以满足人的感官。

最后一个就是延迟。当运动员听到枪响的时候，反应速度是多少？人从听到声音，经过神经传递，最后大脑来反应，一般至少需要100毫秒。

人的神经速度是多快？当人听到一个东西并做出反馈，一般来讲大概100毫秒。大脑是反应比较慢的，如果是经过小脑，这个速度会更快一点，所以这也叫下意识的动作或者行为，但是它会有一个延迟。有一个简单的测试是帮助大家测试自己的反应时间的，一般成年人在250毫秒左右，这包含了大脑做出反应再驱动自己的四肢的时间。

https://humanbenchmark.com/tests/reactiontime

假设人的极限反应时间是100毫秒，如果AI能够在自动驾驶里把各种判断和操作控制在100毫秒以内，那么这个速度是好于大部分人类的。

PART、4

举个简单的例子，如果说用iPhone的视频来记录大家的一生，这个成本大概是多少？做技术的同学都非常关注性能和成本，成本是决定一个技术是否能普及的关键。我们简单地计算一下，每分钟的视频文件375MB，每TB的磁盘成本750人民币，100年的记录成本大概是388万，也并不是一个天文数字。

如果这个成本能降到10万以内，相信很多有钱人会比较感兴趣，毕竟这个数字化的一生作为墓志铭会更容易让后人记住。如果有办法把一生记录下来，AI可以足够懂你，并在100毫秒内做出自己的判断，不停地与人类动作进行比较。那么最终用AI来模拟人类的行为，就变得非常现实了。

技术的迭代和成本的下降会不会让元宇宙突然到来？以蓝牙耳机为例，蓝牙耳机的几个痛点——延时、成本和续航。在2015年之前也有很多人用蓝牙耳机，但它始终是个小众的领域，一年规模大概不到10亿美元。以前的蓝牙耳机无法把时延稳定在100毫秒以内，所以大家用蓝牙耳机沟通的时候总是有障碍，不知道自己说完后对方是否想开口说话，这个100毫米的门槛就让蓝牙耳机的体验跟真实物理世界的体验相差甚远。当苹果的AirPods蓝牙耳机稳定地把延时做到100毫秒以内，这个市场就爆发了，增长了几十倍。

大家可以想象，关于元宇宙和数字原生世界的一些设想，当成本和延时满足大家的需求时，这个市场可能就跟2015年以后的蓝牙耳机一样，突然之间爆发起来。而且它引发的AI技术的进步，也可能超过大家的预期。今天我们有时候觉得AI特别弱智，你问的很多问题它都不懂，觉得AI没法get到你的点，主要还是因为AI的数据积累还不够，AI没有完整连续的数据和偏差纠正。

但是元宇宙并不能简单地依赖视频存储和计算成本的下降。在今天，视频的转化效果非常高，像抖音、视频号等各种视频充斥着大家的生活，大家看到自己想要的东西就会有购买的冲动。但是从技术的角度来讲，视频并不是一个元宇宙的最优的数据结构，它不好做分析，也不适合做数据共享。跟视频比起来，类似于UE5（虚幻引擎）这样的数字孪生模型可能会更合适。比如在公园里拍视频，几万个游客可能会制作几万个视频，文件非常大。但是如果将公园制作成虚幻引擎的模型，大家就可以共用一个模型来制作自己的故事，就跟《西部世界》一样，每个人都能在同样一个场景里活出不同的故事。游客可以用各种不同的虚拟摄像机机位去体验它，这样就大幅降低了制作成本。视频与虚幻引擎相比，大概相当于Hadoop跟TIDB/Oceanbase数据库的对比吧，结构化的数据更容易做分析和处理。

今天游戏引擎产生的视频已经可以以假乱真了，在计算机图形学顶级会议SIGGRAPH 2021上，英伟达通过一部纪录片自曝：在2021年4月份那场GTC发布会的视频中，有14秒的时间黄仁勋是AI合成的特效，利用其3D仿真模拟平台“重组”了虚拟的黄仁勋。如果技术进一步提升，成本进一步下降，相信在虚拟场景中制造视频的成本将会低于人类的制作成本。那时候记录你的一生其实也不需要那么大的数据量，因为大部分背景都是公共的场景。如果记录你的场景数据能够在100毫秒内传输到云端并处理完毕，那么元宇宙的爆发点可能也不远了。

对于这个时间点，你觉得会是几年呢？

作者介绍：

沈旸先生，现任神州数码集团股份有限公司副总裁兼CIO，云基地负责人，集团技术委员会委员。主导集团数字化转型、数字中台、营销私域运营等，领导分布式数据库、开源ERP、SAAS等领域的开发管理工作。是信息技术领域超过12年的专业技术专家。

在加入神州数码之前，曾在SAP美国公司担任7年技术架构师，领导数据分析，EPM（企业绩效管理）和GRC（治理，风险与合规）领域的国际专业服务团队。为150多家世界500强客户提供过数字化转型咨询服务。

往期推荐：

一文读懂蓝绿发布、A/B 测试和金丝雀发布的优缺点

高并发场景下JVM调优实践之路

蚂蚁集团巧用“注册中心”降本增效

干货 | 分布式缓存与DB秒级一致设计实践

如何系统性地学习分布式系统？

美的数字化转型案例分享（2020年）

长按二维码关注

以分布式设计、架构、体系思想为基础，兼论研发相关的点点滴滴，不限于代码、质量体系和研发管理。

上一篇：组件分享之后端组件——Go开发者路线图库

下一篇：微服务系列：分布式日志ELK搭建指南