Monodream  model trainning

您好，感谢开源 MonoDream。

我正在尝试复现 MonoDream 的训练流程。根据之前 issue 的回复，我查看了：

`RoboOrchardLab/robo_orchard_lab/models/monodream/language_model/llava_llama.py`

这个文件里似乎包含了 MonoDream 的模型定义和 forward/loss 计算逻辑，包括 action/instruction 的文本 loss，以及 Latent Panoramic Dreaming 相关的 latent feature MSE loss。

但是我目前没有找到完整的训练脚本和数据构造流程。因此想请教一下：

1. MonoDream 是否会开源完整训练脚本？
   - 例如 `train.py`、`scripts/train.sh`、NVILA 训练启动命令等。

2. NVILA repo 应该如何和 MonoDream repo 组合使用？
   - 是否需要 clone 到 `projects/monodream/` 目录下？
   - 是否需要修改 NVILA 原始训练代码？

3. 是否可以提供 MonoDream 使用的训练配置？
   - DeepSpeed 配置
   - batch size
   - learning rate
   - epoch 数
   - gradient accumulation
   - precision 设置
   - checkpoint 保存设置

4. 训练数据具体如何构造？
   - R2R-CE / RxR-CE step-wise action prediction 数据
   - instruction reasoning 数据
   - Latent Panoramic Dreaming 数据
   - 当前 panoramic RGB/depth latent feature
   - 未来 panoramic RGB/depth latent feature

5. 是否有生成 panoramic RGB-D latent supervision 数据的脚本？
   - 例如生成 current/future panoramic RGB-D
   - 用 vision encoder 提取 latent feature
   - 保存为训练数据

6. 是否可以提供一个从 NVILA-lite-2B 初始化训练 MonoDream 的示例命令？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Monodream model trainning #53

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Monodream model trainning #53

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions