kernels/tests/regression at 21b6655c101e18c4fdb20f10331be4946b6530ef - kernels - TSSC's Gitea: Fast, First, Best!!!!!

wu-arch/kernels

Files

History

Hansung Kim 21b6655c10 sgemm_impl: Implement fast coalesced wmma_store

Enables a fairer comparison between core-coupled tensor core to Hopper
tensor core, where the latter benefits from coalesced full-throughput
moveout to GMEM because it does not use the 1x2 interleaved register
mapping.  This means the result matrix will be stored swizzled in the
GMEM, without breaking correctness.

2024-10-29 22:34:22 -07:00

..

dma and demo kernels

2024-06-07 18:11:19 -07:00

adding tensor regression test.

2023-11-14 05:37:46 -08:00

adding opencl convolution benchmark

2023-11-14 22:31:30 -08:00

adding tensor regression test.

2023-11-14 05:37:46 -08:00

Vortex 2.0 changes:

2023-10-19 20:51:22 -07:00

adding tensor regression test.

2023-11-14 05:37:46 -08:00

flash_attention

flash: Optimize smem alloc for tcore for 8banks

2024-09-19 21:31:39 -07:00

Add regression flops

2024-04-24 21:10:21 -07:00

new unaligned access kernel, update idle kernel

2024-10-24 17:28:59 -07:00

adding tensor regression test.

2023-11-14 05:37:46 -08:00

adding tensor regression test.

2023-11-14 05:37:46 -08:00

adding tensor regression test.

2023-11-14 05:37:46 -08:00

adding tensor regression test.

2023-11-14 05:37:46 -08:00

adding tensor regression test.

2023-11-14 05:37:46 -08:00

dma and demo kernels

2024-06-07 18:11:19 -07:00

fp16 no dma kernel

2024-10-24 17:12:34 -07:00

sgemm_gemmini_dma

update gemmini dma kernel

2024-10-28 13:47:13 -07:00

sgemm_gemmini_duo

sgemm_gemmini_duo: Check in serialized kernel as separate file

2024-06-12 22:44:14 -07:00

sgemm_impl: Implement fast coalesced wmma_store

2024-10-29 22:34:22 -07:00

Add args.bin to ELF

2024-06-06 15:19:39 -07:00

minor udpate

2023-11-27 02:21:47 -08:00

adding tensor regression test.

2023-11-14 05:37:46 -08:00

new unaligned access kernel, update idle kernel

2024-10-24 17:28:59 -07:00

vecaddx: Hardcode args/input device address to match chipyard

2024-03-27 15:15:52 -07:00

common.mk

common.mk: Switch to -Os to prevent branch code duplication

2024-09-07 15:49:19 -07:00

Makefile

minor udpate

2023-11-27 02:21:47 -08:00