pytorch benchmark fix by Trinity-142 · Pull Request #11 · n00bmasters/cutesseract

Trinity-142 · 2026-05-25T13:23:13Z

WARMUP: Time spent avg 0.371218 mcs
torch rect: Time spent avg 11.572838 mcs
torch rect cpu: Time spent avg 131.718397 mcs
torch square: Time spent avg 0.045538 mcs
cutesseract rect: Time spent avg 89.217663 mcs
cutesseract square: Time spent avg 0.053167 mcs
torch rect fp16: Time spent avg 2.773046 mcs
cutesseract rect wmma fp16: Time spent avg 5.310059 mcs
torch rect bf16: Time spent avg 2.762318 mcs
cutesseract rect wmma bf16: Time spent avg 5.211353 mcs

уменьшил размер квадратного семпла потому что иначе ncu не собирался
на скринах 2 и 3 видно, что pytorch bf16 использует тензор коры

Wokzy

ncu нас не особо интересует, важнее nsys, я думаю он потянет большие размеры (на плюсах во всяком случае потянул)

Wokzy · 2026-05-25T14:38:52Z

+    rect_samples = generate_samples(1, (2048, 8192, 2048), device='cuda:0', dtype=torch.float32)
+    rect_samples_cpu = generate_samples(1, (2048, 8192, 2048), device='cpu', dtype=torch.float32)
+    square_samples = generate_samples(1, (128, 128, 128), device='cuda:0', dtype=torch.float32)


Погоди, а зачем это, они же в кеши попадут эти матрицы или не? Как будто неправдоподобный перф может быть

Trinity-142 · 2026-05-25T14:45:46Z

ncu нас не особо интересует, важнее nsys, я думаю он потянет большие размеры (на плюсах во всяком случае потянул)

Я не нашел в nsys инфу по тензор корам

Wokzy · 2026-05-25T14:46:50Z

+    for _ in range(3):
+        torch.matmul(a[0], b[0], out=res[0])
+    torch.cuda.synchronize()


Чудеса.... Торч только лишь за счёт этого вармапа лучше. Надо профили смотреть

Wokzy · 2026-05-25T15:47:20Z

    bench_torch(*rect_samples)

    print('cutesseract rect wmma bf16: ', end='')
    bench_cutesseract(gemm_wmma_fp16, *rect_samples, out_dtype=torch.float32)


Тут я обдристался в моменте, должно быть gemm_wmma_bf16. Сверху его тоже импортировать нужно. Докинешь пж?

Wokzy · 2026-05-25T15:48:17Z

Глобально вернуть бы наборы по 10 штук и фиксануть bf16 вызов, а так всё ок

fix

d86734f

Trinity-142 requested a review from Wokzy May 25, 2026 13:23

Trinity-142 changed the title ~~fix~~ pytorch benchmark fix May 25, 2026

Wokzy requested changes May 25, 2026

View reviewed changes

Wokzy reviewed May 25, 2026

View reviewed changes

Wokzy requested changes May 25, 2026

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

pytorch benchmark fix#11

pytorch benchmark fix#11
Trinity-142 wants to merge 1 commit into
n00bmasters:masterfrom
Trinity-142:pytorch-bench

Trinity-142 commented May 25, 2026 •

edited

Loading

Uh oh!

Wokzy left a comment

Uh oh!

Wokzy May 25, 2026

Uh oh!

Trinity-142 commented May 25, 2026

Uh oh!

Wokzy May 25, 2026

Uh oh!

Wokzy May 25, 2026

Uh oh!

Wokzy commented May 25, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

Trinity-142 commented May 25, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Wokzy left a comment

Choose a reason for hiding this comment

Uh oh!

Wokzy May 25, 2026

Choose a reason for hiding this comment

Uh oh!

Trinity-142 commented May 25, 2026

Uh oh!

Wokzy May 25, 2026

Choose a reason for hiding this comment

Uh oh!

Wokzy May 25, 2026

Choose a reason for hiding this comment

Uh oh!

Wokzy commented May 25, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Trinity-142 commented May 25, 2026 •

edited

Loading