一、目标

通过真实照片重建物体的3D模型,再用GAN算法把3D模型对比重建场景(scene),支持光照,环境等变换。最后使用RL对环境和智能体进行一次性算法建模。生成一个活的宇宙。实际情况看来,直接上3D有困难,先从2D平面开始,2D的数据非常丰富,我们可以从现有的场景、人物、物品三个方面,从故事线建立2D平面宇宙。

二、思路

我首先想到以MineCraft游戏世界作为基础,来构建元宇宙的场景。微软收购MineCraft后,投资开发了一个RL平台malmo, 但是2020年以后,malmo的issue回复和Gitter讨论区都不活跃了,可以判断这个平台已经凉凉了。微软后续又搞了一个AirSim平台, 基于Unreal游戏引擎开发了一套插件,目前人气较好。

思考微软这样的大公司在这些年的决策,有几个点值得注意:

  1. 微软投资RL已经很多年但是没有回报,可以推断传统思路(MDP,信息熵)在RL领域有较大瓶颈。RL的数据收集要通过Agent跟环境交互,这跟CV领域相比难度大太多了。而CV领域最近十年发展很不错,因此RL未来方向可能要往CV领域靠拢,我的判断是:基于模拟器的visual RL,它将是一种model-based off-policy 跨领域的算法。从微软投资路径看,MineCraft是可以自定义(编辑)场景,Unreal本身就是一个全能的游戏引擎,因此场景(或者叫世界、地图)的可开发能力一定是它投资的必要条件。
  2. GAN方向是CV领域最近几年很火的子领域,它的GD算法非常类似RL的AC算法。因此,这两个领域算法有打通的可能性。把RL和GAN作为整体来考虑也许是一个可行的方向。
  3. 从图片生成3D模型是NVIDIA公司花巨资研究的方向,目前已有一些科研成果。
  4. 目前比较主流的游戏引擎有Unreal和Unity,通过开发插件的形式可以利用它们的强大能力。所以这块只是工程量的问题。

2D to3D建模(生成、变换)有NVIDIA这样的超级大型的显卡制造商在做,是它的核心领域,小公司可以借力。

引擎(包括物理引擎和游戏引擎)都有中型的公司在长期经营,也是借力就好。

元宇宙产业链有微软(或者Meta)这些超大公司在做。因此像3D引擎、模拟器和代码开发平台,超大公司必定会给开发者提供。

算法论文目前是非常火爆的,不缺好的算法。

综上所述,借用上述基础做AI算法落地是有商业机会的。

机会方向:

  • 利用已有的GAN算法,包括NVIDIA的图片生成3D模型的算法(已有)
  • 利用已有的游戏引擎,因为微软选择为游戏引擎开发插件,因此我可以在微软插件基础上二次开发。(已有)
  • 开发生成-对抗算法从街景照片重建3D场景(没有)
  • 开发RL算法生成活的世界(没有)

三、方案

3.1 2D场景开发工具

AI可控的图片生成图片

可AI编辑的2D场景工具

CLIP驱动2D场景编辑(外链

DALL-E(俄国)文字生成图片(paddle不完整版本

3.2 图片生成3D模型

2022CVPR源码DaGAN:人脸2D to 3D

2021年Nvidia EG3D GAN源码

论文:从图片重建3D形状 无法复现

3.3 GAN算法应用到游戏引擎生成3D场景

TODO

四、快速Demo

这个项目前人没做过,科研属性比较重,需要快速试错。

我们可以跳过从照片生成3D模型,跳过游戏插件开发,直接把3D模型导入到游戏引擎中,直接用生成-对抗算法来重建照片中的场景,比如一条简单的街道。

4.1 微软AirSim强化学习开发环境

AirSim环境飞桨强化学习教程

4.2 NVIDIA OMNIVERSE开发环境

OMNIVERSE教程

4.3 Isaac Gym

当前版本的Isaac Gym跟omniverse是没有任何关系的,将来它会加入到omniverse isaac sim项目中。以什么形式加入还不清楚。

网友汇总了Isaac Gym的资料

安装

  • 在Isaac Gym 官网注册并下载软件。
  • 解压缩到文件夹
  • 创建conda隔离环境
  • 进入解压缩目录/python 子目录,执行命令
pip install -e .
  • 执行下面命令看看Isaac Gym是否安装好
pip show isaacgym
  • 克隆Isaac Gym官方测试用例并安装
git clone https://github.com/NVIDIA-Omniverse/IsaacGymEnvs.git

pip install -e .
  • 进入example目录,测试官方的用例:
python joint_monkey.py
  • 发生下面的错误
ImportError: libpython3.7m.so.1.0: cannot open shared object file: No such file or directory
  • 安装依赖包解决
sudo apt install libpython3.7

附录

微软AirSim

关联Epic账号和github账号

随手记

NVIDIA RIVA

是一个完全加速的对话式AI 应用框架,用于构建使用端到端深度学习流程的多模态对话式AI服务。Riva 是由原先的 Jarvis 更名而来的,Riva 框架包括针对语音、视觉和自然语言理解(NLU)任务的优化服务。Riva 能够帮助客户,即使在没有 AI专家的支持下,也能够快速地搭建和部署对话式AI 应用,并且支持定制化的对话式AI 服务,同时也能够降低部署对话式AI 的基础设施开销,从而降低了各个行业使用对话式AI 的门槛,提供更好的用户体验。

NVIDIA MAXINE

实现了语音降噪和视频实时超分辨率

NVIDIA NEMO

只是一个工具包,它基于PyTorch,允许人们快速构建,训练和微调对话式AI模型。

NVIDIA MERLIN

为用户提供了一个全链路的方案,用于为推荐系统提供GPU加速的数据提取、模型训练和模型部署。其可充分利用基于NVIDIA Ampere架构的全NVIDIA A100 GPU,帮助企业构建推荐系统。

Issac Sim官网首页

Pixar USD 统一交换格式免费课程

微软的AI硬件平台Project Volterra