doc/attention-test_8cc_source.html

 // nnet3/attention-test.cc

 // Copyright      2017  Hossein Hadian
 //                2017  Johns Hopkins University (author: Daniel Povey)

 // See ../../COPYING for clarification regarding multiple authors
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
 // You may obtain a copy of the License at
 //
 //  http://www.apache.org/licenses/LICENSE-2.0
 //
 // THIS CODE IS PROVIDED *AS IS* BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 // KIND, EITHER EXPRESS OR IMPLIED, INCLUDING WITHOUT LIMITATION ANY IMPLIED
 // WARRANTIES OR CONDITIONS OF TITLE, FITNESS FOR A PARTICULAR PURPOSE,
 // MERCHANTABLITY OR NON-INFRINGEMENT.
 // See the Apache 2 License for the specific language governing permissions and
 // limitations under the License.

 #include "nnet3/attention.h"
 #include "util/common-utils.h"

 namespace kaldi {
 namespace nnet3 {
 namespace attention {


 // (*C)(i, j) = alpha * VecVec(A.Row(i), B.Row(i + j * row_shift))
 void GetAttentionDotProductsSimple(BaseFloat alpha,
                                    const CuMatrixBase<BaseFloat> &A,
                                    const CuMatrixBase<BaseFloat> &B,
                                    CuMatrixBase<BaseFloat> *C) {
   KALDI_ASSERT(A.NumCols() == B.NumCols() &&
                A.NumRows() == C->NumRows());
   int32 input_num_cols = A.NumCols(),
       num_extra_rows = B.NumRows() - A.NumRows(),
       context_dim = C->NumCols();
   KALDI_ASSERT(num_extra_rows > 0 && num_extra_rows % (context_dim - 1) == 0);
   int32 row_shift = num_extra_rows / (context_dim - 1);
   for (int32 i = 0; i < C->NumRows(); i++) {
     for (int32 j = 0; j < C->NumCols(); j++) {
       (*C)(i, j) = 0.0;
       for (int32 k = 0; k < input_num_cols; k++) {
         (*C)(i, j) += alpha * A(i, k) * B(i + (j * row_shift), k);
       }
     }
   }
 }

 //     A->Row(i) += \sum_k alpha * C(i, k) * B.Row(i + k * row_shift).
 void ApplyScalesToOutputSimple(BaseFloat alpha,
                                const CuMatrixBase<BaseFloat> &B,
                                const CuMatrixBase<BaseFloat> &C,
                                CuMatrixBase<BaseFloat> *A) {
   KALDI_ASSERT(A->NumCols() == B.NumCols() &&
                A->NumRows() == C.NumRows());
   int32 num_extra_rows = B.NumRows() - A->NumRows(),
       context_dim = C.NumCols();
   KALDI_ASSERT(num_extra_rows > 0 && num_extra_rows % (context_dim - 1) == 0);
   int32 row_shift = num_extra_rows / (context_dim - 1);
   for (int32 i = 0; i < A->NumRows(); i++) {
     for (int32 j = 0; j < A->NumCols(); j++) {
       for (int32 k = 0; k < context_dim; k++) {
         (*A)(i, j) += alpha * C(i, k) * B(i + (k * row_shift), j);
       }
     }
   }
 }

 //     B->Row(i + j * row_shift) += alpha * C(i, j) * A.Row(i).
 void ApplyScalesToInputSimple(BaseFloat alpha,
                               const CuMatrixBase<BaseFloat> &A,
                               const CuMatrixBase<BaseFloat> &C,
                               CuMatrixBase<BaseFloat> *B) {
   KALDI_ASSERT(A.NumCols() == B->NumCols() &&
                A.NumRows() == C.NumRows());
   int32 num_extra_rows = B->NumRows() - A.NumRows(),
       context_dim = C.NumCols();
   KALDI_ASSERT(num_extra_rows > 0 && num_extra_rows % (context_dim - 1) == 0);
   int32 row_shift = num_extra_rows / (context_dim - 1);
   for (int32 i = 0; i < A.NumRows(); i++) {
     for (int32 j = 0; j < A.NumCols(); j++) {
       for (int32 k = 0; k < context_dim; k++) {
         (*B)(i + (k * row_shift), j) += alpha * C(i, k) * A(i, j);
       }
     }
   }
 }

 void UnitTestAttentionDotProductAndAddScales() {
   int32 output_num_rows = RandInt(1, 50), input_num_cols = RandInt(1, 10),
       row_shift = RandInt(1, 5), context_dim = RandInt(2, 5),
       num_extra_rows = (context_dim - 1) * row_shift,
       input_num_rows = output_num_rows + num_extra_rows;
   BaseFloat alpha = 0.25 * RandInt(1, 5);
   CuMatrix<BaseFloat> A(output_num_rows, input_num_cols),
       B(input_num_rows, input_num_cols),
       C(output_num_rows, context_dim);

   B.SetRandn();
   C.SetRandn();
   A.Set(0.0);
   CuMatrix<BaseFloat> A2(A);
   ApplyScalesToOutput(alpha, B, C, &A);
   ApplyScalesToOutputSimple(alpha, B, C, &A2);
   AssertEqual(A, A2);

   CuMatrix<BaseFloat> C2(C);
   GetAttentionDotProductsSimple(alpha, A, B, &C);
   GetAttentionDotProducts(alpha, A, B, &C2);
   AssertEqual(C, C2);

   CuMatrix<BaseFloat> B2(B);
   ApplyScalesToInput(alpha, A, C, &B);
   ApplyScalesToInputSimple(alpha, A, C, &B2);
   AssertEqual(B, B2);
 }

 void TestAttentionForwardBackward() {
   BaseFloat key_scale = 0.5 * RandInt(1, 3);
   BaseFloat epsilon = 1.0e-03;
   int32 test_dim = 3;
   bool output_context = (RandInt(0, 1) == 0);
   int32 output_num_rows = RandInt(1, 50),
       value_dim = RandInt(10, 30), key_dim = RandInt(10, 30),
       row_shift = RandInt(1, 5), context_dim = RandInt(2, 5),
       num_extra_rows = (context_dim - 1) * row_shift,
       input_num_rows = output_num_rows + num_extra_rows,
       query_dim = key_dim + context_dim;
   CuMatrix<BaseFloat> keys(input_num_rows, key_dim),
       queries(output_num_rows, query_dim),
       values(input_num_rows, value_dim),
       C(output_num_rows, context_dim),
       output(output_num_rows, value_dim + (output_context ? context_dim : 0));


   keys.SetRandn();
   queries.SetRandn();
   values.SetRandn();


   AttentionForward(key_scale, keys, queries, values, &C, &output);

   CuMatrix<BaseFloat> keys_deriv(input_num_rows, key_dim),
       queries_deriv(output_num_rows, query_dim),
       values_deriv(input_num_rows, value_dim),
       output_deriv(output_num_rows, output.NumCols());

   output_deriv.SetRandn();

   AttentionBackward(key_scale, keys, queries, values, C,
                     output_deriv, &keys_deriv, &queries_deriv,
                     &values_deriv);

   BaseFloat objf_baseline = TraceMatMat(output_deriv, output, kTrans);


   {  // perturb the values and see if the objf changes as predicted.
     Vector<BaseFloat> predicted_vec(test_dim), observed_vec(test_dim);
     for (int32 i = 0; i < test_dim; i++) {
       CuMatrix<BaseFloat> values2(input_num_rows, value_dim);
       values2.SetRandn();
       values2.Scale(epsilon);
       BaseFloat predicted_delta_objf = TraceMatMat(values_deriv, values2, kTrans);
       values2.AddMat(1.0, values);

       output.SetZero();
       AttentionForward(key_scale, keys, queries, values2, &C, &output);
       BaseFloat objf2 = TraceMatMat(output_deriv, output, kTrans),
           observed_delta_objf = objf2 - objf_baseline;
       KALDI_LOG << "Changing values: predicted objf change is "
                 << predicted_delta_objf << ", observed objf change is "
                 << observed_delta_objf;
       predicted_vec(i) = predicted_delta_objf;
       observed_vec(i) = observed_delta_objf;
     }
     KALDI_ASSERT(predicted_vec.ApproxEqual(observed_vec, 0.1));
   }

   {  // perturb the keys and see if the objf changes as predicted.
     Vector<BaseFloat> predicted_vec(test_dim), observed_vec(test_dim);
     for (int32 i = 0; i < test_dim; i++) {
       CuMatrix<BaseFloat> keys2(input_num_rows, key_dim);
       keys2.SetRandn();
       keys2.Scale(epsilon);
       BaseFloat predicted_delta_objf = TraceMatMat(keys_deriv, keys2, kTrans);
       keys2.AddMat(1.0, keys);

       output.SetZero();
       AttentionForward(key_scale, keys2, queries, values, &C, &output);
       BaseFloat objf2 = TraceMatMat(output_deriv, output, kTrans),
           observed_delta_objf = objf2 - objf_baseline;
       KALDI_LOG << "Changing keys: predicted objf change is "
                 << predicted_delta_objf << ", observed objf change is "
                 << observed_delta_objf;
       predicted_vec(i) = predicted_delta_objf;
       observed_vec(i) = observed_delta_objf;
     }
     KALDI_ASSERT(predicted_vec.ApproxEqual(observed_vec, 0.1));
   }


   {  // perturb the queries and see if the objf changes as predicted.
     Vector<BaseFloat> predicted_vec(test_dim), observed_vec(test_dim);
     for (int32 i = 0; i < test_dim; i++) {
       CuMatrix<BaseFloat> queries2(output_num_rows, query_dim);
       queries2.SetRandn();
       queries2.Scale(epsilon);
       BaseFloat predicted_delta_objf = TraceMatMat(queries_deriv, queries2, kTrans);
       queries2.AddMat(1.0, queries);

       output.SetZero();
       AttentionForward(key_scale, keys, queries2, values, &C, &output);
       BaseFloat objf2 = TraceMatMat(output_deriv, output, kTrans),
           observed_delta_objf = objf2 - objf_baseline;
       KALDI_LOG << "Changing queries: predicted objf change is "
                 << predicted_delta_objf << ", observed objf change is "
                 << observed_delta_objf;
       predicted_vec(i) = predicted_delta_objf;
       observed_vec(i) = observed_delta_objf;
     }
     KALDI_ASSERT(predicted_vec.ApproxEqual(observed_vec, 0.1));
   }
 }

 void UnitTestAttention() {
   UnitTestAttentionDotProductAndAddScales();
   TestAttentionForwardBackward();
 }


 } // namespace attention
 } // namespace nnet3
 } // namespace kaldi


 int main() {
   using namespace kaldi;
   using namespace kaldi::nnet3;
   using namespace kaldi::nnet3::attention;
   for (int32 loop = 0; loop < 2; loop++) {
 #if HAVE_CUDA == 1
     CuDevice::Instantiate().SetDebugStrideMode(true);
     if (loop == 0)
       CuDevice::Instantiate().SelectGpuId("no"); // -1 means no GPU
     else
       CuDevice::Instantiate().SelectGpuId("optional"); // -2 .. automatic selection
 #endif
     for (int32 i = 0; i < 5; i++) {
       UnitTestAttention();
     }
   }
 }
kaldi
This code computes Goodness of Pronunciation (GOP) and extracts phone-level pronunciation feature for...
Definition: chain.dox:20

kaldi::nnet3::attention::AttentionBackward
void AttentionBackward(BaseFloat key_scale, const CuMatrixBase< BaseFloat > &keys, const CuMatrixBase< BaseFloat > &queries, const CuMatrixBase< BaseFloat > &values, const CuMatrixBase< BaseFloat > &c, const CuMatrixBase< BaseFloat > &output_deriv, CuMatrixBase< BaseFloat > *keys_deriv, CuMatrixBase< BaseFloat > *queries_deriv, CuMatrixBase< BaseFloat > *values_deriv)
Performs the backward pass corresponding to &#39;AttentionForward&#39;, propagating the derivative back to th...
Definition: attention.cc:154

rnnlm::j
int j
Definition: mikolov-rnnlm-lib.cc:66

kaldi::nnet3::attention
Definition: attention-test.cc:26

kaldi::nnet3::attention::ApplyScalesToInputSimple
void ApplyScalesToInputSimple(BaseFloat alpha, const CuMatrixBase< BaseFloat > &A, const CuMatrixBase< BaseFloat > &C, CuMatrixBase< BaseFloat > *B)
Definition: attention-test.cc:72

kaldi::nnet3::attention::ApplyScalesToInput
void ApplyScalesToInput(BaseFloat alpha, const CuMatrixBase< BaseFloat > &A, const CuMatrixBase< BaseFloat > &C, CuMatrixBase< BaseFloat > *B)
This function is related to GetAttentionDotProducts(); it is used in backprop.
Definition: attention.cc:76

kaldi::CuMatrixBase::SetRandn
void SetRandn()
Definition: cu-matrix.cc:3132

kaldi::int32
kaldi::int32 int32
Definition: online-tcp-source.cc:27

common-utils.h

kaldi::nnet3::attention::AttentionForward
void AttentionForward(BaseFloat key_scale, const CuMatrixBase< BaseFloat > &keys, const CuMatrixBase< BaseFloat > &queries, const CuMatrixBase< BaseFloat > &values, CuMatrixBase< BaseFloat > *c, CuMatrixBase< BaseFloat > *output)
This is a higher-level interface to the attention code.
Definition: attention.cc:97

kaldi::CuMatrixBase::AddMat
void AddMat(Real alpha, const CuMatrixBase< Real > &A, MatrixTransposeType trans=kNoTrans)
*this += alpha * A
Definition: cu-matrix.cc:954

kaldi::CuMatrix
This class represents a matrix that&#39;s stored on the GPU if we have one, and in memory if not...
Definition: matrix-common.h:71

kaldi::nnet3::attention::ApplyScalesToOutputSimple
void ApplyScalesToOutputSimple(BaseFloat alpha, const CuMatrixBase< BaseFloat > &B, const CuMatrixBase< BaseFloat > &C, CuMatrixBase< BaseFloat > *A)
Definition: attention-test.cc:52

kaldi::nnet3
Definition: dnn3_code_compilation.dox:22

kaldi::kTrans
Definition: matrix-common.h:33

kaldi::CuMatrixBase::Scale
void Scale(Real value)
Definition: cu-matrix.cc:644

kaldi::nnet3::attention::TestAttentionForwardBackward
void TestAttentionForwardBackward()
Definition: attention-test.cc:120

kaldi::nnet3::attention::GetAttentionDotProductsSimple
void GetAttentionDotProductsSimple(BaseFloat alpha, const CuMatrixBase< BaseFloat > &A, const CuMatrixBase< BaseFloat > &B, CuMatrixBase< BaseFloat > *C)
Definition: attention-test.cc:30

float

kaldi::nnet3::attention::ApplyScalesToOutput
void ApplyScalesToOutput(BaseFloat alpha, const CuMatrixBase< BaseFloat > &B, const CuMatrixBase< BaseFloat > &C, CuMatrixBase< BaseFloat > *A)
This function is related to GetAttentionDotProducts(); it is used in scaling the values by the softma...
Definition: attention.cc:55

kaldi::nnet3::attention::GetAttentionDotProducts
void GetAttentionDotProducts(BaseFloat alpha, const CuMatrixBase< BaseFloat > &A, const CuMatrixBase< BaseFloat > &B, CuMatrixBase< BaseFloat > *C)
This function is a utility function that is at the core of how we implement attention.
Definition: attention.cc:32

kaldi::CuMatrixBase::SetZero
void SetZero()
Math operations, some calling kernels.
Definition: cu-matrix.cc:509

kaldi::TraceMatMat
Real TraceMatMat(const MatrixBase< Real > &A, const MatrixBase< Real > &B, MatrixTransposeType trans)
We need to declare this here as it will be a friend function.
Definition: kaldi-matrix.cc:2692

rnnlm::i
int i
Definition: mikolov-rnnlm-lib.cc:66

kaldi::CuMatrixBase
Matrix for CUDA computing.
Definition: matrix-common.h:69

kaldi::CuMatrixBase::NumCols
MatrixIndexT NumCols() const
Definition: cu-matrix.h:216

kaldi::Vector
A class representing a vector.
Definition: kaldi-vector.h:406

main
int main()
Definition: attention-test.cc:240

KALDI_ASSERT
#define KALDI_ASSERT(cond)
Definition: kaldi-error.h:185

kaldi::nnet3::attention::UnitTestAttentionDotProductAndAddScales
void UnitTestAttentionDotProductAndAddScales()
Definition: attention-test.cc:91

attention.h
This file contains the lower-level interface for self-attention.

kaldi::AssertEqual
static void AssertEqual(float a, float b, float relative_tolerance=0.001)
assert abs(a - b) <= relative_tolerance * (abs(a)+abs(b))
Definition: kaldi-math.h:276

kaldi::nnet3::attention::UnitTestAttention
void UnitTestAttention()
Definition: attention-test.cc:229

kaldi::CuMatrixBase::NumRows
MatrixIndexT NumRows() const
Dimensions.
Definition: cu-matrix.h:215

KALDI_LOG
#define KALDI_LOG
Definition: kaldi-error.h:153

kaldi::RandInt
int32 RandInt(int32 min_val, int32 max_val, struct RandomState *state)
Definition: kaldi-math.cc:95