Lesson of 25 February 2011 - Enrico Bertolazzi

/*
  Matrix Matrix multiplication routine
 */
 

template <typename Type>
void
mm_standard( Type const A[], unsigned ldA,
             Type const B[], unsigned ldB,
             Type       C[], unsigned ldC,
             unsigned n, // number of the rows of A
             unsigned p, // number of the columns of A and rows of B
             unsigned m  // number of the columns of B
                         // the results is a matrix C of n rows and m columns

           ) ;

template <typename Type>
void
mm_tiling( Type const A[], unsigned ldA,
           Type const B[], unsigned ldB,
           Type       C[], unsigned ldC,
           unsigned n, // number of the rows of A
           unsigned p, // number of the columns of A and rows of B
           unsigned m, // number of the columns of B
                       // the results is a matrix C of n rows and m columns
           unsigned BK // block size
           ) ;

template <typename Type>
void
mm_recurr( Type const A[], unsigned ldA,
           Type const B[], unsigned ldB,
           Type       C[], unsigned ldC,
           unsigned n,   // number of the rows of A
           unsigned p,   // number of the columns of A and rows of B
           unsigned m ); // number of the columns of B
                         // the results is a matrix C of n rows and m columns

/*
  Matrix Matrix multiplication routine
  
  g++ -O3 -funroll-loops -sse2 -sse3 -sse3 -ssse3 -sse4.1 mm_check.cc mm_standard.cc TimeMeter.cc 

  5 x 5 average time 0.01
  10 x 10 average time 0.004
  20 x 20 average time 0.014
  40 x 40 average time 0.099
  80 x 80 average time 0.789
  160 x 160 average time 8.526
  320 x 320 average time 70.61
  640 x 640 average time 981.838
  1280 x 1280 average time 10938.1
  2560 x 2560 average time 624531
  Time Ratio [ 10/5] = 0.4
  Time Ratio [ 20/10] = 3.5
  Time Ratio [ 40/20] = 7.07143
  Time Ratio [ 80/40] = 7.9697
  Time Ratio [ 160/80] = 10.8061
  Time Ratio [ 320/160] = 8.28173
  Time Ratio [ 640/320] = 13.9051
  Time Ratio [ 1280/640] = 11.1404
  Time Ratio [ 2560/1280] = 57.0969
*/

#include "mm.hh"
#include "pstdint.h"

#define A(I,J) A[(I)+(J)*ldA]
#define B(I,J) B[(I)+(J)*ldB]
#define C(I,J) C[(I)+(J)*ldC]

template <typename Type>
void
mm_standard( Type const A[], unsigned ldA,
             Type const B[], unsigned ldB,
             Type       C[], unsigned ldC,
             unsigned n,
             unsigned p,
             unsigned m ) {
  for ( unsigned i = 0 ; i < n ; ++i )
    for ( unsigned j = 0 ; j < m ; ++j ) {
      C(i,j) = 0 ;
      for ( unsigned k = 0 ; k < p ; ++k )
        C(i,j) += A(i,k) * B(k,j) ;
    }
}

#define EXPLICIT_INSTANTIATE(T) \
template void mm_standard<T>( T const [], unsigned, \
                              T const [], unsigned, \
                              T       [], unsigned, \
                              unsigned, unsigned, unsigned ) ;

EXPLICIT_INSTANTIATE(float) ;
EXPLICIT_INSTANTIATE(double) ;
EXPLICIT_INSTANTIATE(int32_t) ;
EXPLICIT_INSTANTIATE(int64_t) ;

/*
  Matrix Matrix multiplication routine
  
  g++ -O3 mm_check.cc mm_standard.cc TimeMeter.cc 
  g++ -O3 -funroll-loops -sse2 -sse3 -sse3 -ssse3 -sse4.1 mm_check.cc mm_tiling.cc TimeMeter.cc 

  5 x 5 average time 0.01
  10 x 10 average time 0.004
  20 x 20 average time 0.014
  40 x 40 average time 0.099
  80 x 80 average time 0.789
  160 x 160 average time 8.526
  320 x 320 average time 70.61
  640 x 640 average time 981.838
  1280 x 1280 average time 10938.1
  2560 x 2560 average time 624531
  Time Ratio [ 10/5] = 0.4
  Time Ratio [ 20/10] = 3.5
  Time Ratio [ 40/20] = 7.07143
  Time Ratio [ 80/40] = 7.9697
  Time Ratio [ 160/80] = 10.8061
  Time Ratio [ 320/160] = 8.28173
  Time Ratio [ 640/320] = 13.9051
  Time Ratio [ 1280/640] = 11.1404
  Time Ratio [ 2560/1280] = 57.0969

 */

#include "mm.hh"
#include <algorithm>

#define A(I,J) A[(I)+(J)*ldA]
#define B(I,J) B[(I)+(J)*ldB]
#define C(I,J) C[(I)+(J)*ldC]

template <typename Type>
inline
void
mm_tiling_addTo( Type const A[], unsigned ldA,
                 Type const B[], unsigned ldB,
                 Type       C[], unsigned ldC,
                 unsigned n,
                 unsigned p,
                 unsigned m ) {
  for ( unsigned i = 0 ; i < n ; ++i )
    for ( unsigned j = 0 ; j < m ; ++j ) {
      Type tmp = 0 ;
      for ( unsigned k = 0 ; k < p ; ++k ) tmp += A(i,k) * B(k,j) ;
      C(i,j) += tmp ;
    }
}

template <typename Type>
void
mm_tiling( Type const A[], unsigned ldA,
           Type const B[], unsigned ldB,
           Type       C[], unsigned ldC,
           unsigned n,
           unsigned p,
           unsigned m,
           unsigned BK ) {
  /*
  //  BK
  // +--+--+--+--+
  // |  |  |  |  |
  // +--+--+--+--+
  // |  |  |  |  |
  // +--+--+--+--+
  // |  |  |  |  |
  // +--+--+--+--+
  // |  |  |  |  |
  // +--+--+--+--+
  // |  |  |  |  |
  // +--+--+--+--+
  */
  for ( unsigned i = 0 ; i < n ; ++i )
    for ( unsigned j = 0 ; j < m ; ++j )
      C(i,j) = 0 ;

  for ( unsigned jj = 0 ; jj < m ; jj += BK ) {
    unsigned column = std::min(BK,m-jj) ;
    for ( unsigned ii = 0 ; ii < n ; ii += BK ) {
      unsigned row = std::min(BK,n-ii) ;
      for ( unsigned kk = 0 ; kk < p ; kk += BK ) {
        unsigned rc = std::min(BK,p-kk) ;
        // multiply block A(ii,kk) * B(kk,jj)
        mm_tiling_addTo( &A(ii,kk), ldA,
                         &B(kk,jj), ldB,
                         &C(ii,jj), ldC,
                         row, rc, column ) ;
      }
    }
  }

}

#define EXPLICIT_INSTANTIATE(T) \
template void mm_tiling<T>( T const [], unsigned, \
                            T const [], unsigned, \
                            T       [], unsigned, \
                            unsigned, unsigned, unsigned, unsigned ) ;

EXPLICIT_INSTANTIATE(float) ;
EXPLICIT_INSTANTIATE(double) ;
EXPLICIT_INSTANTIATE(int32_t) ;
EXPLICIT_INSTANTIATE(int64_t) ;

/*
  Matrix Matrix multiplication routine
  
 */

#include "mm.hh"
#include <algorithm>

#define A(I,J) A[(I)+(J)*ldA]
#define B(I,J) B[(I)+(J)*ldB]
#define C(I,J) C[(I)+(J)*ldC]

template <typename Type>
inline
void
mm_base_addto4x4( Type const A[], unsigned ldA,
                  Type const B[], unsigned ldB,
                  Type       C[], unsigned ldC ) {
  for ( unsigned i = 0 ; i < 4 ; ++i )
    for ( unsigned j = 0 ; j < 4 ; ++j ) {
      Type tmp = 0 ;
      for ( unsigned k = 0 ; k < 4 ; ++k ) tmp += A(i,k) * B(k,j) ;
      C(i,j) += tmp ;
    }
}

template <typename Type>
inline
void
mm_base_addto8x8( Type const A[], unsigned ldA,
                  Type const B[], unsigned ldB,
                  Type       C[], unsigned ldC ) {
  for ( unsigned i = 0 ; i < 8 ; i += 4 )
    for ( unsigned j = 0 ; j < 8 ; j += 4 )
      for ( unsigned k = 0 ; k < 8 ; k += 4 )
        mm_base_addto4x4( &A(i,k), ldA, &B(k,j), ldB, &C(i,j), ldC ) ;
}

template <typename Type>
inline
void
mm_base_addto16x16( Type const A[], unsigned ldA,
                    Type const B[], unsigned ldB,
                    Type       C[], unsigned ldC ) {
  for ( unsigned i = 0 ; i < 16 ; i += 8 )
    for ( unsigned j = 0 ; j < 16 ; j += 8 )
      for ( unsigned k = 0 ; k < 16 ; k += 8 )
        mm_base_addto8x8( &A(i,k), ldA, &B(k,j), ldB, &C(i,j), ldC ) ;
}

template <typename Type>
inline
void
mm_classin_addto( Type const A[], unsigned ldA,
                  Type const B[], unsigned ldB,
                  Type       C[], unsigned ldC,
                  unsigned n,
                  unsigned p,
                  unsigned m ) {
  for ( unsigned i = 0 ; i < n ; ++i )
    for ( unsigned j = 0 ; j < m ; ++j ) {
      Type tmp = 0 ;
      for ( unsigned k = 0 ; k < p ; ++k ) tmp += A(i,k) * B(k,j) ;
      C(i,j) += tmp ;
    }
}

template <typename Type>
inline
void
mm_base_addto( Type const A[], unsigned ldA,
               Type const B[], unsigned ldB,
               Type       C[], unsigned ldC,
               unsigned n,
               unsigned p,
               unsigned m ) {
  unsigned const NB = 16 ;
  for ( unsigned jj = 0 ; jj < m ; jj += NB ) {
    unsigned column = std::min(NB,m-jj) ;
    for ( unsigned ii = 0 ; ii < n ; ii += NB ) {
      unsigned row = std::min(NB,n-ii) ;
      for ( unsigned kk = 0 ; kk < p ; kk += NB ) {
        unsigned rc = std::min(NB,p-kk) ;
        if ( row == NB && rc == NB && column == NB )
          mm_base_addto16x16( &A(ii,kk), ldA,
                              &B(kk,jj), ldB,
                              &C(ii,jj), ldC ) ;
        else
          mm_classin_addto( &A(ii,kk), ldA,
                            &B(kk,jj), ldB,
                            &C(ii,jj), ldC,
                            row, rc, column ) ;
      }
    }
  }
}

//! C += A*B
template <typename Type>
void
mm_recurr_addto( Type const A[], unsigned ldA,
                 Type const B[], unsigned ldB,
                 Type       C[], unsigned ldC,
                 unsigned n,
                 unsigned p,
                 unsigned m ) {
                 
  unsigned const NB = 400 ; 
  if ( n <= NB && p <= NB && m <= NB ) {
    mm_base_addto( A, ldA, B, ldB, C, ldC, n, p, m ) ;
    return ;
  }

  /*
  //  splitting tipo 1A
  //  +-------+    +-------+ +-------+
  //  |       |    |       | |       |
  //  |  C11  |    |  A11  | |  B11  |
  //  |       |    |       | |       |
  //  +-------+ += +-------+ +-------+
  //  |       |    |       |
  //  |  C21  |    |  A21  |
  //  |       |    |       |
  //  +-------+    +-------+
  //
  //  splitting tipo 1B
  //  +-------+    +-------+-------+ +-------+
  //  |       |    |       |       | |       |
  //  |  C11  |    |  A11  |  A12  | |  B11  |
  //  |       |    |       |       | |       |
  //  +-------+ += +-------+-------+ +-------+
  //  |       |    |       |       | |       |
  //  |  C21  |    |  A21  |  A22  | |  B21  |
  //  |       |    |       |       | |       |
  //  +-------+    +-------+-------+ +-------+
  //
  //  splitting tipo 2A
  //  +-------+-------+    +-------+ +-------+-------+
  //  |       |       |    |       | |       |       |
  //  |  C11  |  C12  | += |  A11  | |  B11  |  B12  |
  //  |       |       |    |       | |       |       |
  //  +-------+-------+    +-------+ +-------+-------+
  //
  //  splitting tipo 2B
  //  +-------+-------+    +-------+-------+ +-------+-------+
  //  |       |       |    |       |       | |       |       |
  //  |  C11  |  C12  | += |  A11  |  A12  | |  B11  |  B12  |
  //  |       |       |    |       |       | |       |       |
  //  +-------+-------+    +-------+-------+ +-------+-------+
  //                                         |       |       |
  //                                         |  B21  |  B22  |
  //                                         |       |       |
  //                                         +-------+-------+
  //
  //  splitting tipo 3A
  //  +------+-------+    +-------+ +-------+-------+
  //  |      |       |    |       | |       |       |
  //  |  C11 |  C12  |    |  A11  | |  B11  |  B12  |
  //  |      |       |    |       | |       |       |
  //  +------+-------+ += +-------+ +-------+-------+
  //  |      |       |    |       |
  //  |  C21 |  C22  |    |  A21  |
  //  |      |       |    |       |
  //  +------+-------+    +-------+
  //
  //  splitting tipo 3B
  //  +-------+-------+    +-------+-------+ +-------+-------+
  //  |       |       |    |       |       | |       |       |
  //  |  C11  |  C12  |    |  A11  |  A12  | |  B11  |  B12  |
  //  |       |       |    |       |       | |       |       |
  //  +-------+-------+ += +-------+-------+ +-------+-------+
  //  |       |       |    |       |       | |       |       |
  //  |  C21  |  C22  |    |  A21  |  A22  | |  B21  |  B22  |
  //  |       |       |    |       |       | |       |       |
  //  +-------+-------+    +-------+-------+ +-------+-------+
  //
  */
  
  unsigned n2 = n/2 ;
  unsigned m2 = m/2 ;
  unsigned p2 = p/2 ;

  // n x p
  Type const * A11 = A ;
  Type const * A12 = A   + ldA * p2 ;
  Type const * A21 = A   + n2       ;
  Type const * A22 = A12 + n2       ;
 
  // p x m
  Type const * B11 = B ;
  Type const * B12 = B   + ldB * m2 ;
  Type const * B21 = B   + p2 ;
  Type const * B22 = B12 + p2 ;

  // n x m
  Type       * C11 = C ;
  Type       * C12 = C   + ldC * m2 ;
  Type       * C21 = C   + n2 ;
  Type       * C22 = C12 + n2 ;

  // matrix C is n x m
  if ( 2*n > 3*m ) { // matrix is tall 
    if ( 2*n > 3*p ) { // splitting of type 1A
      mm_recurr_addto( A11, ldA, B11, ldB, C11, ldC, n2,   p, m ) ;
      mm_recurr_addto( A21, ldA, B11, ldB, C21, ldC, n-n2, p, m ) ;
    } else {  // splitting of type 1B
      mm_recurr_addto( A11, ldA, B11, ldB, C11, ldC, n2,   p2,   m ) ;
      mm_recurr_addto( A12, ldA, B21, ldB, C11, ldC, n2,   p-p2, m ) ;

      mm_recurr_addto( A21, ldA, B11, ldB, C21, ldC, n-n2, p2,   m ) ;
      mm_recurr_addto( A22, ldA, B21, ldB, C21, ldC, n-n2, p-p2, m ) ;
    }
  } else if ( 3*n < 2*m ) { // matrix is flat
    if ( 2*p > 3*n ) { // splitting of type 2B
      mm_recurr_addto( A11, ldA, B11, ldB, C11, ldC, n, p2,   m2 ) ;
      mm_recurr_addto( A12, ldA, B21, ldB, C11, ldC, n, p-p2, m2 ) ;

      mm_recurr_addto( A11, ldA, B12, ldB, C12, ldC, n, p2,   m-m2 ) ;
      mm_recurr_addto( A12, ldA, B22, ldB, C12, ldC, n, p-p2, m-m2 ) ;
    } else { // splitting of type 2A
      mm_recurr_addto( A11, ldA, B11, ldB, C11, ldC, n, p, m2   ) ;
      mm_recurr_addto( A11, ldA, B12, ldB, C12, ldC, n, p, m-m2 ) ;    
    }
  } else {
    if ( 2*n > 3*p ) { // splitting of type 3A
      mm_recurr_addto( A11, ldA, B11, ldB, C11, ldC, n2,   p, m2   ) ;
      mm_recurr_addto( A11, ldA, B12, ldB, C12, ldC, n2,   p, m-m2 ) ;

      mm_recurr_addto( A21, ldA, B11, ldB, C21, ldC, n-n2, p, m2   ) ;
      mm_recurr_addto( A21, ldA, B12, ldB, C22, ldC, n-n2, p, m-m2 ) ;
    } else { // splitting of type 3B
      mm_recurr_addto( A11, ldA, B11, ldB, C11, ldC, n2,   p2,   m2   ) ;
      mm_recurr_addto( A12, ldA, B21, ldB, C11, ldC, n2,   p-p2, m2   ) ;

      mm_recurr_addto( A11, ldA, B12, ldB, C12, ldC, n2,   p2,   m-m2 ) ;
      mm_recurr_addto( A12, ldA, B22, ldB, C12, ldC, n2,   p-p2, m-m2 ) ;

      mm_recurr_addto( A21, ldA, B11, ldB, C21, ldC, n-n2, p2,   m2   ) ;
      mm_recurr_addto( A22, ldA, B21, ldB, C21, ldC, n-n2, p-p2, m2   ) ;

      mm_recurr_addto( A21, ldA, B12, ldB, C22, ldC, n-n2, p2,   m-m2 ) ;
      mm_recurr_addto( A22, ldA, B22, ldB, C22, ldC, n-n2, p-p2, m-m2 ) ;    
    }

  }
}

////////////////////////////////////////////////////////////////////////////////

template <typename Type>
void
mm_recurr( Type const A[], unsigned ldA,
           Type const B[], unsigned ldB,
           Type       C[], unsigned ldC,
           unsigned n,
           unsigned p,
           unsigned m ) {

  for ( unsigned i = 0 ; i < n ; ++i )
    for ( unsigned j = 0 ; j < m ; ++j )
      C(i,j) = 0 ;

  mm_recurr_addto( A, ldA, B, ldB, C, ldC, n, p, m ) ;
}

#define EXPLICIT_INSTANTIATE(T) \
template void mm_recurr<T>( T const [], unsigned, \
                            T const [], unsigned, \
                            T       [], unsigned, \
                            unsigned, unsigned, unsigned ) ; \
template void mm_recurr_addto<T>( T const [], unsigned, \
                                  T const [], unsigned, \
                                  T       [], unsigned, \
                                  unsigned, unsigned, unsigned )

EXPLICIT_INSTANTIATE(float) ;
EXPLICIT_INSTANTIATE(double) ;
EXPLICIT_INSTANTIATE(int32_t) ;
EXPLICIT_INSTANTIATE(int64_t) ;

/*
  Matrix Matrix multiplication routine
  
  g++ -O3 -funroll-loops mm_check.cc mm_standard.cc mm_tiling.cc mm_recurr.cc TimeMeter.cc -lblas
  g++ -O3 -funroll-loops -sse2 -sse3 -sse3 -ssse3 -sse4.1 mm_check.cc mm_standard.cc mm_tiling.cc mm_recurr.cc TimeMeter.cc -framework Accelerate

time using dgemm

5 x 5 average time 0.0076ms
10 x 10 average time 0.0012ms
20 x 20 average time 0.0046ms
40 x 40 average time 0.032ms
80 x 80 average time 0.303ms
160 x 160 average time 9.2734ms
320 x 320 average time 9.183ms
640 x 640 average time 66.8882ms
1280 x 1280 average time 458.291ms
2560 x 2560 average time 3958.36ms
Time Ratio [ 10/5] = 0.157895
Time Ratio [ 20/10] = 3.83333
Time Ratio [ 40/20] = 6.95652
Time Ratio [ 80/40] = 9.46875
Time Ratio [ 160/80] = 30.6053
Time Ratio [ 320/160] = 0.990252
Time Ratio [ 640/320] = 7.28392
Time Ratio [ 1280/640] = 6.8516
Time Ratio [ 2560/1280] = 8.63722
   
 */

#include <iostream>
#include <iomanip>
#include <cstdlib> // near equivalent to <stdlib.h>  for exit, rand, ...
#include <cmath>   // near equivalent to <math.h>    for sin, cos, log, ..

#include <map>

#include "mm.hh"
#include "TimeMeter.hh"
#include "pstdint.h"

#define A(I,J) A[(I)+(J)*ldA]
#define B(I,J) B[(I)+(J)*ldB]
#define C(I,J) C[(I)+(J)*ldC]

using namespace std ;

// general random numer generator
template <typename U>
inline
U random() { return (U)rand()-(U)rand() ; }

// store average time using map of STL
static map<unsigned,double> averageTime ;

//
//  Fill with random value matric A (n x m)
//
template <typename Type>
static
void
fillRandom( Type A[], unsigned ldA, unsigned n, unsigned m ) {
  for ( unsigned i = 0 ; i < n ; ++i )
    for ( unsigned j = 0 ; j < m ; ++j )
      A(i,j) = random() ;
}

typedef double valueType ;
//typedef int64_t valueType ;

#define F77NAME(A) A##_

extern "C" {
  void
  F77NAME(dgemm)( char const transA[],
                  char const transB[],
                  int const & M,
                  int const & N,
                  int const & K,
                  double const & ALPHA,
                  double const   A[], int const & ldA,
                  double const   B[], int const & ldB,
                  double const & beta,
                  double         C[], int const & ldC ) ;
/*  Purpose
 *  =======
 *
 *  DGEMM  performs one of the matrix-matrix operations
 *
 *     C := alpha*op( A )*op( B ) + beta*C,
 *
 *  where  op( X ) is one of
 *
 *     op( X ) = X   or   op( X ) = X',
 *
 *  alpha and beta are scalars, and A, B and C are matrices, with op( A )
 *  an m by k matrix,  op( B )  a  k by n matrix and  C an m by n matrix.
 */
};

int
main() {

  TimeMeter tm ;
  unsigned nruns = 5 ;
  unsigned minsz = 5 ;
  unsigned maxsz = 3000 ;

  valueType * A = new valueType[ maxsz * maxsz ] ;
  valueType * B = new valueType[ maxsz * maxsz ] ;
  valueType * C = new valueType[ maxsz * maxsz ] ;

  for ( unsigned sz = minsz ; sz < maxsz ; sz *= 2 ) {
    unsigned ldA = sz ;
    unsigned ldB = sz ; 
    unsigned ldC = sz ;
    fillRandom( A, ldA, sz, sz ) ;
    fillRandom( B, ldB, sz, sz ) ;
    
    tm . start() ;
    for ( unsigned k = 0 ; k < nruns ; ++k )
      mm_recurr( A, ldA, B, ldB, C, ldC, sz, sz, sz ) ;
      //mm_tiling( A, ldA, B, ldB, C, ldC, sz, sz, sz, 80 ) ;
      //mm_standard( A, ldA, B, ldB, C, ldC, sz, sz, sz ) ;
      //F77NAME(dgemm)( "N", "N", sz, sz, sz, 1, A, ldA, B, ldB, 0, C, ldC ) ;

    double elapsed = tm . milliseconds() ;
    averageTime[sz] = elapsed / nruns ;
    cout << sz << " x " << sz << " average time " << averageTime[sz] << "ms\n" ;
  }
  
  for ( unsigned sz = 2*minsz ; sz < maxsz ; sz *= 2 )
    cout << "Time Ratio [ " << sz << "/" << sz/2 << "] = "
         << averageTime[sz] / averageTime[sz/2] << '\n' ; 

}

Lesson of 25 February 2011¶