feat: DDP gradient bucketing #92

Chamberlain0w0 · 2025-11-14T09:59:01Z

No description provided.

infini_train/include/nn/parallel/reducer.h

infini_train/src/nn/parallel/reducer.cc

infini_train/src/tensor.cc

infini_train/src/nn/parallel/reducer.cc

Chamberlain0w0 · 2025-11-26T07:38:42Z

原先 stream wait 逻辑有误（在某个 bucket 的 allreduce 调用后立刻让 compute stream wait for done_event，这样的话通信计算相当于完全不重叠）。现在把 wait 时机延后至所有 bucket 均发射完 allreduce 后再进行。

为此，需要调用 Work 提供的 wait 操作，同时让 Work 提供 WaitBlocking/WaitNonBlocking 两种操作。前者是 cpu 端的 cudaEventSynchronize 操作，这点与 torch 提供的是对齐的；后者是 cudaStreamWaitEvent 操作，只是在 stream 中插点，不阻塞 cpu 端执行。

kilinchange · 2025-11-27T04:13:04Z

work 用法和示例：

infini_train/src/nn/parallel/reducer.cc

infini_train/src/tensor.cc

Chamberlain0w0 changed the title ~~[WIP] feat: DDP gradient bucketing~~ feat: DDP gradient bucketing Nov 17, 2025

Chamberlain0w0 added 2 commits November 18, 2025 17:28

feat: add DDP gradient bucketing, support compute/comm dual stream

b3c0512

feat: add Work definition, fix gradient_as_bucket_view option

0053fa8

kilinchange requested review from JYMiracle305 and kilinchange November 19, 2025 01:46

kilinchange requested changes Nov 20, 2025

View reviewed changes

JYMiracle305 reviewed Nov 21, 2025

View reviewed changes

infini_train/src/nn/parallel/reducer.cc Outdated Show resolved Hide resolved

infini_train/src/nn/parallel/reducer.cc Outdated Show resolved Hide resolved

fix: fix requested changes and add sync in profiler

ed1a608

Chamberlain0w0 force-pushed the feature/gradient_bucketing branch from 19c9727 to ed1a608 Compare November 25, 2025 10:00

fix: fix stream wait logics in compute-comm overlap

0a2f97d

kilinchange requested changes Nov 27, 2025

View reviewed changes

infini_train/src/nn/parallel/reducer.cc Outdated Show resolved Hide resolved

infini_train/src/tensor.cc Outdated Show resolved Hide resolved

fix: fix requested changes

d7d43b4

kilinchange approved these changes Nov 27, 2025

View reviewed changes

kilinchange merged commit e7d57db into master Nov 27, 2025
2 checks passed

kilinchange deleted the feature/gradient_bucketing branch November 27, 2025 06:41

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

feat: DDP gradient bucketing #92

feat: DDP gradient bucketing #92

Chamberlain0w0 commented Nov 14, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Chamberlain0w0 commented Nov 26, 2025

Uh oh!

kilinchange commented Nov 27, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

feat: DDP gradient bucketing #92

feat: DDP gradient bucketing #92

Conversation

Chamberlain0w0 commented Nov 14, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Chamberlain0w0 commented Nov 26, 2025

Uh oh!

kilinchange commented Nov 27, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

kilinchange commented Nov 27, 2025 •

edited

Loading