Skip to content

Monodream model trainning #53

@mjhxd

Description

@mjhxd

您好,感谢开源 MonoDream。

我正在尝试复现 MonoDream 的训练流程。根据之前 issue 的回复,我查看了:

RoboOrchardLab/robo_orchard_lab/models/monodream/language_model/llava_llama.py

这个文件里似乎包含了 MonoDream 的模型定义和 forward/loss 计算逻辑,包括 action/instruction 的文本 loss,以及 Latent Panoramic Dreaming 相关的 latent feature MSE loss。

但是我目前没有找到完整的训练脚本和数据构造流程。因此想请教一下:

  1. MonoDream 是否会开源完整训练脚本?

    • 例如 train.pyscripts/train.sh、NVILA 训练启动命令等。
  2. NVILA repo 应该如何和 MonoDream repo 组合使用?

    • 是否需要 clone 到 projects/monodream/ 目录下?
    • 是否需要修改 NVILA 原始训练代码?
  3. 是否可以提供 MonoDream 使用的训练配置?

    • DeepSpeed 配置
    • batch size
    • learning rate
    • epoch 数
    • gradient accumulation
    • precision 设置
    • checkpoint 保存设置
  4. 训练数据具体如何构造?

    • R2R-CE / RxR-CE step-wise action prediction 数据
    • instruction reasoning 数据
    • Latent Panoramic Dreaming 数据
    • 当前 panoramic RGB/depth latent feature
    • 未来 panoramic RGB/depth latent feature
  5. 是否有生成 panoramic RGB-D latent supervision 数据的脚本?

    • 例如生成 current/future panoramic RGB-D
    • 用 vision encoder 提取 latent feature
    • 保存为训练数据
  6. 是否可以提供一个从 NVILA-lite-2B 初始化训练 MonoDream 的示例命令?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions