您好,感谢开源 MonoDream。
我正在尝试复现 MonoDream 的训练流程。根据之前 issue 的回复,我查看了:
RoboOrchardLab/robo_orchard_lab/models/monodream/language_model/llava_llama.py
这个文件里似乎包含了 MonoDream 的模型定义和 forward/loss 计算逻辑,包括 action/instruction 的文本 loss,以及 Latent Panoramic Dreaming 相关的 latent feature MSE loss。
但是我目前没有找到完整的训练脚本和数据构造流程。因此想请教一下:
-
MonoDream 是否会开源完整训练脚本?
- 例如
train.py、scripts/train.sh、NVILA 训练启动命令等。
-
NVILA repo 应该如何和 MonoDream repo 组合使用?
- 是否需要 clone 到
projects/monodream/ 目录下?
- 是否需要修改 NVILA 原始训练代码?
-
是否可以提供 MonoDream 使用的训练配置?
- DeepSpeed 配置
- batch size
- learning rate
- epoch 数
- gradient accumulation
- precision 设置
- checkpoint 保存设置
-
训练数据具体如何构造?
- R2R-CE / RxR-CE step-wise action prediction 数据
- instruction reasoning 数据
- Latent Panoramic Dreaming 数据
- 当前 panoramic RGB/depth latent feature
- 未来 panoramic RGB/depth latent feature
-
是否有生成 panoramic RGB-D latent supervision 数据的脚本?
- 例如生成 current/future panoramic RGB-D
- 用 vision encoder 提取 latent feature
- 保存为训练数据
-
是否可以提供一个从 NVILA-lite-2B 初始化训练 MonoDream 的示例命令?
您好,感谢开源 MonoDream。
我正在尝试复现 MonoDream 的训练流程。根据之前 issue 的回复,我查看了:
RoboOrchardLab/robo_orchard_lab/models/monodream/language_model/llava_llama.py这个文件里似乎包含了 MonoDream 的模型定义和 forward/loss 计算逻辑,包括 action/instruction 的文本 loss,以及 Latent Panoramic Dreaming 相关的 latent feature MSE loss。
但是我目前没有找到完整的训练脚本和数据构造流程。因此想请教一下:
MonoDream 是否会开源完整训练脚本?
train.py、scripts/train.sh、NVILA 训练启动命令等。NVILA repo 应该如何和 MonoDream repo 组合使用?
projects/monodream/目录下?是否可以提供 MonoDream 使用的训练配置?
训练数据具体如何构造?
是否有生成 panoramic RGB-D latent supervision 数据的脚本?
是否可以提供一个从 NVILA-lite-2B 初始化训练 MonoDream 的示例命令?