sgemm working

2019-11-25 01:10:38 -05:00
parent ad9623b7dd
commit 4e90b26ab3
62 changed files with 46533 additions and 2417878 deletions
--- a/benchmarks/vector/sgemm_nn/Makefile
+++ b/benchmarks/vector/sgemm_nn/Makefile
@@ -1,11 +1,11 @@
 LIB_PATH = ../../../runtime

-COMP     = /nethome/ekim79/riscv-gnu-toolchain/drops/bin/riscv32-unknown-elf-gcc
+COMP     =  /home/priya/dev/riscv_vec/riscv-gnu/bin/riscv32-unknown-elf-gcc

 CC_FLAGS = -ffreestanding -O0 -Wl,--gc-sections -nostartfiles -nostdlib -nostartfiles -nodefaultlibs -Wl,-Bstatic,-T,$(LIB_PATH)/mains/vortex_link.ld -march=rv32imv -mabi=ilp32

-DMP  = /nethome/ekim79/riscv-gnu-toolchain/drops/bin/riscv32-unknown-elf-objdump
-CPY  = /nethome/ekim79/riscv-gnu-toolchain/drops/bin/riscv32-unknown-elf-objcopy
+DMP  =  /home/priya/dev/riscv_vec/riscv-gnu/bin/riscv32-unknown-elf-objdump
+CPY  =  /home/priya/dev/riscv_vec/riscv-gnu/bin/riscv32-unknown-elf-objcopy

 # VX_STR  = ../../startup/vx_start.s

@@ -16,8 +16,8 @@ VX_IO   = $(LIB_PATH)/io/vx_io.s $(LIB_PATH)/io/vx_io.c
 VX_API  = $(LIB_PATH)/vx_api/vx_api.c
 VX_TEST = $(LIB_PATH)/tests/tests.c
 VX_FIO  = $(LIB_PATH)/fileio/fileio.s
-VX_VEC  = test_asm.s #vx_vec_sgemm_nn_backup.s       #float --> int
-LIBS    = /nethome/ekim79/riscv-gnu-toolchain/drops/riscv32-unknown-elf/lib/libc.a /nethome/ekim79/riscv-gnu-toolchain/drops/riscv32-unknown-elf/lib/libstdc++.a -static-libgcc -lgcc
+VX_VEC  = vx_vec_sgemm_nn.s       #float --> int
+LIBS    =  /home/priya/dev/riscv_vec/riscv-gnu/riscv32-unknown-elf/lib/libc.a  /home/priya/dev/riscv_vec/riscv-gnu/riscv32-unknown-elf/lib/libstdc++.a -static-libgcc -lgcc

 VX_MAIN = vx_vec_sgemm_nn

--- a/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.c
+++ b/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.c
@@ -31,7 +31,7 @@ int main()
    for (int i = 0; i < (m * n); ++i) d1[i] = 0;


-#if 0
+#if 1
    printf("sgemm_nn\na[%d]:", m*k);
    for (int i = 0; i < m*k; ++i) {
        if(!(i % k)) printf("\n");
@@ -49,18 +49,18 @@ int main()
    int ldc = 4; //64;
    int vsize = 4;

-  for (int r = 0; r < k; r++) {
-       for (int c = 0; c < m; c++) {
-           for (int i = 0; i < n;) {
+  for (int r = 0; r < m; r++) {
+       for (int c = 0; c < n; c++) {
+           for (int i = 0; i < k;) {
 //               d1[r*k+i] += a1[r*k+c]*b1[i*n+c];
-                 vx_vec_sgemm_nn(i, c, r, a1, b1, c1, ldc, vsize);
+                 vx_vec_sgemm_nn(i, r, c, a1, b1, c1, ldc, vsize);
                 i = i + vsize;
           }
       }
    }
 //    vx_vec_sgemm_nn(n, a1, b1, c1);

-#if 1 
+#if 1
    printf("\n\nc[%d]:", m*n);
    for (int i = 0; i < m*n; ++i) {
        if (!(i % n)) printf("\n");
@@ -68,15 +68,17 @@ int main()
    }
 #endif

-   for (int r = 0; r < k; r++) {
-       for (int c = 0; c < m; c++) {
-           for (int i = 0; i < n; i++) {
-               d1[r*k+i] += a1[r*k+c]*b1[i*n+c];
+   for (int r = 0; r < m; r++) {
+       for (int c = 0; c < n; c++) {
+           for (int i = 0; i < k; i++) {
+               d1[c*ldc+i] += a1[c*ldc+r]*b1[i + (r*ldc)];
+               //printf("d[%d] += a[%d]*b[%d]\n", c*ldc+i, c*ldc+r , i + (r*ldc));
+               //printf("%d %d %d\n", d1[c*ldc+i] , a1[c*ldc+r] , b1[i + (r*ldc)]);
           }
       }
    }

-#if 0
+#if 1
   printf("\n\nc[%d]:\n", m*n);
   for(int i = 0; i < m; ++i) {
      for(int j = 0; j < n; ++j) {
--- a/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.dump
+++ b/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.dump
--- a/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.elf
+++ b/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.elf
--- a/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.hex
+++ b/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.hex
--- a/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.s
+++ b/benchmarks/vector/sgemm_nn/vx_vec_sgemm_nn.s
@@ -1,61 +1,42 @@
 .type vx_vec_sgemm_nn, @function
 .global vx_vec_sgemm_nn
-# RV64IDV system
 #
-# void
-# sgemm_nn(size_t n, size_t m, size_t k,
-#          int *a,   // m * k matrix
-#          int *b,   // k * n matrix
-#          int *c)   // m * n matrix
-#
-#  c += a*b (alpha=1, no transpose on input matrices)
-#  matrices stored in C row-major order
-#
-# for (int r = 0; r < k; r++) {
-#    for (int c = 0; c < m; c++) {
-#        for (int i = 0; i < n; i++) {
-#            c[r*k+i] += a[r*k+c]*b[i*n+c];
-#        }
-#    }
-# }
-# a0 = n, a1 = m, a2 = k 
+#  for (int n = 0; n < k; n++) {
+#       for (int m = 0; m < m; m++) {
+#           for (int i = 0; i < n;) {
+#//               d1[n*k+i] += a1[n*k+m]*b1[i*n+m];
+#                 vx_vec_sgemm_nn(i, c, r, a1, b1, c1, ldc);
+#                 i = i + 4;
+#           }
+#       }
+#    } 
 # a3 = a, a4 = b, a5 = c
-# v0 = a, v2 = b, v2 = c
-# x0 = i, x1 = c, x2 = r 
-#
+# a0 = i, a1 = m, a2 = n
+# a6 = ldc
 vx_vec_sgemm_nn:
-        vsetvli t0, a2, e32, m8 # k
-loop_row:                   # a[m][k]
-    vlw.v v0, (a3)
-        sub a2, a2, t0
-        slli t0, t0, 2
-        add a3, a3, t0
+    vsetvli t0, a7, e32
+     mul t1, a6, a2  # n*ldc
+     add t2, t1, a1  # i + (n*ldc)
+     slli t2, t2, 2
+     add a3, t2, a3  # a[i+ n*ldc]
+     lw t3, (a3)

-        vsetvli t1, a1, e32, m8 # m
-loop_col:                   # b[k][n]
-    vlw.v v1, (a4)
-        sub a1, a1, t1
-        slli t1, t1, 2
-        add a4, a4, t1
+     mul t4, a1, a6  # m*ldc
+     add t5, a0, t4  # i + m*ldc
+     slli t5, t5, 2
+     add a4, t5, a4  # b[i + m*ldc]
+ #   lw x6, (a4)

-        vsetvli t2, a0, e32, m8 # n
-loop_iner:
-    vlw.v v2, (a5)         # c[][]
-        sub a0, a0, t2
-        slli t2, t2, 2
-        add a5, a5, t2
+     vlw.v v0, (a4)
+     vmul.vx v1, v0, t3
+ 
+     mul t6, a2, a6  # n*ldc
+     add t0, a0, t6  # i + n*ldc
+     slli t0, t0, 2
+     add a5, t0, a5  # c[i + m*ldc]

-    bnez t2, loop_iner
+     vlw.v v2, (a5) #c
+     vadd.vv v2, v2, v1
+     vsw.v v2, (a5)

-    bnez t1, loop_col
-
-
- #   vadd.vv v0, v0, v0
- #   vsw.v v0, (a5)
- #   add a5, a5, t0
-
-    bnez t0, loop_row
    ret
-
-
-