pytorch benchmark fix#11
Conversation
Wokzy
left a comment
There was a problem hiding this comment.
ncu нас не особо интересует, важнее nsys, я думаю он потянет большие размеры (на плюсах во всяком случае потянул)
| rect_samples = generate_samples(1, (2048, 8192, 2048), device='cuda:0', dtype=torch.float32) | ||
| rect_samples_cpu = generate_samples(1, (2048, 8192, 2048), device='cpu', dtype=torch.float32) | ||
| square_samples = generate_samples(1, (128, 128, 128), device='cuda:0', dtype=torch.float32) |
There was a problem hiding this comment.
Погоди, а зачем это, они же в кеши попадут эти матрицы или не? Как будто неправдоподобный перф может быть
Я не нашел в nsys инфу по тензор корам |
| for _ in range(3): | ||
| torch.matmul(a[0], b[0], out=res[0]) | ||
| torch.cuda.synchronize() |
There was a problem hiding this comment.
Чудеса.... Торч только лишь за счёт этого вармапа лучше. Надо профили смотреть
| bench_torch(*rect_samples) | ||
|
|
||
| print('cutesseract rect wmma bf16: ', end='') | ||
| bench_cutesseract(gemm_wmma_fp16, *rect_samples, out_dtype=torch.float32) |
There was a problem hiding this comment.
Тут я обдристался в моменте, должно быть gemm_wmma_bf16. Сверху его тоже импортировать нужно. Докинешь пж?
|
Глобально вернуть бы наборы по 10 штук и фиксануть bf16 вызов, а так всё ок |
WARMUP: Time spent avg 0.371218 mcs
torch rect: Time spent avg 11.572838 mcs
torch rect cpu: Time spent avg 131.718397 mcs
torch square: Time spent avg 0.045538 mcs
cutesseract rect: Time spent avg 89.217663 mcs
cutesseract square: Time spent avg 0.053167 mcs
torch rect fp16: Time spent avg 2.773046 mcs
cutesseract rect wmma fp16: Time spent avg 5.310059 mcs
torch rect bf16: Time spent avg 2.762318 mcs
cutesseract rect wmma bf16: Time spent avg 5.211353 mcs
уменьшил размер квадратного семпла потому что иначе ncu не собирался


на скринах 2 и 3 видно, что pytorch bf16 использует тензор коры