Collaboration diagram for OnlinePreconditionerSimple:

[legend]

Public Member Functions
	OnlinePreconditionerSimple ()

void	SetRank (int32 rank)

void	PreconditionDirections (CuMatrixBase< BaseFloat > R, CuVectorBase< BaseFloat > row_prod, BaseFloat *scale)

Private Member Functions
BaseFloat	Eta (int32 N) const

void	PreconditionDirectionsCpu (MatrixBase< double > R, VectorBase< double > row_prod, BaseFloat *scale)

void	Init (const MatrixBase< double > &R0)

void	InitDefault (int32 D)

Private Attributes
int32	rank_

double	num_samples_history_

double	alpha_

double	epsilon_

double	delta_

Vector< double >	d_t_

Matrix< double >	R_t_

double	rho_t_

Detailed Description

Definition at line 28 of file nnet-precondition-online-test.cc.

Constructor & Destructor Documentation

◆ OnlinePreconditionerSimple()

OnlinePreconditionerSimple ( )

inline

Definition at line 30 of file nnet-precondition-online-test.cc.

30 : rank_(40), num_samples_history_(2000.0), alpha_(4.0),

31 epsilon_(1.0e-10), delta_(5.0e-04) { }

kaldi::nnet2::OnlinePreconditionerSimple::alpha_

double alpha_

Definition: nnet-precondition-online-test.cc:56

kaldi::nnet2::OnlinePreconditionerSimple::epsilon_

double epsilon_

Definition: nnet-precondition-online-test.cc:57

kaldi::nnet2::OnlinePreconditionerSimple::rank_

int32 rank_

Definition: nnet-precondition-online-test.cc:54

kaldi::nnet2::OnlinePreconditionerSimple::delta_

double delta_

Definition: nnet-precondition-online-test.cc:58

kaldi::nnet2::OnlinePreconditionerSimple::num_samples_history_

double num_samples_history_

Definition: nnet-precondition-online-test.cc:55

Member Function Documentation

◆ Eta()

BaseFloat Eta ( int32 N ) const

private

Definition at line 120 of file nnet-precondition-online-test.cc.

References KALDI_ASSERT, and OnlinePreconditionerSimple::num_samples_history_.

Referenced by OnlinePreconditionerSimple::PreconditionDirectionsCpu(), and OnlinePreconditionerSimple::SetRank().

                                                        {
   KALDI_ASSERT(num_samples_history_ > 0.0);
   BaseFloat ans = 1.0 - exp(-N / num_samples_history_);
   if (ans > 0.9) ans = 0.9;
   return ans;
 }

◆ Init()

void Init ( const MatrixBase< double > & R0 )

private

Definition at line 108 of file nnet-precondition-online-test.cc.

References rnnlm::i, OnlinePreconditionerSimple::InitDefault(), MatrixBase< Real >::NumCols(), MatrixBase< Real >::NumRows(), and OnlinePreconditionerSimple::PreconditionDirections().

Referenced by OnlinePreconditionerSimple::PreconditionDirectionsCpu(), and OnlinePreconditionerSimple::SetRank().

                                                                   {
   int32 D = R0.NumCols(), N = R0.NumRows();
   InitDefault(D);
   int32 num_init_iters = 3;
   for (int32 i = 0; i < num_init_iters; i++) {
     CuMatrix<BaseFloat> R0_copy(R0);
     CuVector<BaseFloat> row_products(N);
     BaseFloat scale;
     PreconditionDirections(&R0_copy, &row_products, &scale);
   }
 }

◆ InitDefault()

void InitDefault ( int32 D )

private

Definition at line 84 of file nnet-precondition-online-test.cc.

References OnlinePreconditionerSimple::d_t_, OnlinePreconditionerSimple::epsilon_, rnnlm::i, KALDI_WARN, OnlinePreconditionerSimple::R_t_, OnlinePreconditionerSimple::rank_, Vector< Real >::Resize(), Matrix< Real >::Resize(), OnlinePreconditionerSimple::rho_t_, and VectorBase< Real >::Set().

Referenced by OnlinePreconditionerSimple::Init(), and OnlinePreconditionerSimple::SetRank().

                                                     {
   if (rank_ >= D) {
     KALDI_WARN << "Rank " << rank_ << " of online preconditioner is >= dim " << D
                << ", setting it to "
                << (D - 1) << " (but this is probably still too high)";
     rank_ = D - 1;
   }
   int32 R = rank_;
   R_t_.Resize(R, D);
   for (int32 r = 0; r < R; r++) {
     std::vector<int32> cols;
     for (int32 c = r; c < D; c += R)
       cols.push_back(c);
     for (int32 i = 0; i < cols.size(); i++) {
       int32 c = cols[i];
       R_t_(r, c) = (i == 0 ? 1.1 : 1.0) /
           sqrt(1.1 * 1.1 + cols.size() - 1);
     }
   }
   d_t_.Resize(R);
   d_t_.Set(epsilon_);
   rho_t_ = epsilon_;
 }

◆ PreconditionDirections()

void PreconditionDirections	(	CuMatrixBase< BaseFloat > *	R,
		CuVectorBase< BaseFloat > *	row_prod,
		BaseFloat *	scale
	)

Definition at line 67 of file nnet-precondition-online-test.cc.

References MatrixBase< Real >::CopyFromMat(), CuMatrixBase< Real >::CopyFromMat(), CuVectorBase< Real >::CopyFromVec(), VectorBase< Real >::CopyFromVec(), and OnlinePreconditionerSimple::PreconditionDirectionsCpu().

Referenced by OnlinePreconditionerSimple::Init(), OnlinePreconditionerSimple::SetRank(), and kaldi::nnet2::UnitTestPreconditionDirectionsOnline().

                         {
   Matrix<BaseFloat> R_cpu(*R);
   Vector<BaseFloat> row_prod_cpu(*row_prod);
   Matrix<double> R_cpu_dbl(R_cpu);
   Vector<double> row_prod_cpu_dbl(row_prod_cpu);
   PreconditionDirectionsCpu(&R_cpu_dbl,
                             &row_prod_cpu_dbl,
                             scale);
   row_prod_cpu.CopyFromVec(row_prod_cpu_dbl);
   R_cpu.CopyFromMat(R_cpu_dbl);
   R->CopyFromMat(R_cpu);
   row_prod->CopyFromVec(row_prod_cpu);
 }

◆ PreconditionDirectionsCpu()

void PreconditionDirectionsCpu	(	MatrixBase< double > *	R,
		VectorBase< double > *	row_prod,
		BaseFloat *	scale
	)

private

Definition at line 128 of file nnet-precondition-online-test.cc.

Referenced by OnlinePreconditionerSimple::PreconditionDirections(), and OnlinePreconditionerSimple::SetRank().

                       {
   if (R_t_.NumRows() == 0)
     Init(*X_t);
   int32 R = R_t_.NumRows(), D = R_t_.NumCols(), N = X_t->NumRows();
   BaseFloat eta = Eta(N);
 
   SpMatrix<double> F_t(D);
   // F_t =(def) R_t^T D_t R_t + \rho_t I
   F_t.AddToDiag(rho_t_);
   F_t.AddMat2Vec(1.0, R_t_, kTrans, d_t_, 1.0);
 
   // Make sure F_t is +ve definite.
   {
     KALDI_ASSERT(d_t_.Min() > 0);
     Vector<double> eigs(D);
     F_t.Eig(&eigs, NULL);
     KALDI_ASSERT(eigs.Min() > 0);
   }
 
   // S_t =(def) 1/N X_t^T X_t.
   SpMatrix<double> S_t(D);
   S_t.AddMat2(1.0 / N, *X_t, kTrans, 0.0);
 
   // T_t =(def) \eta S_t + (1-\eta) F_t
   SpMatrix<double> T_t(D);
   T_t.AddSp(eta, S_t);
   T_t.AddSp(1.0 - eta, F_t);
 
   // Y_t =(def) R_t T_t
   Matrix<double> Y_t(R, D);
   Y_t.AddMatSp(1.0, R_t_, kNoTrans, T_t, 0.0);
 
   // Z_t =(def) Y_t Y_t^T
   SpMatrix<double> Z_t(R);
   Z_t.AddMat2(1.0, Y_t, kNoTrans, 0.0);
 
   Matrix<double> U_t(R, R);
   Vector<double> c_t(R);
   // decompose Z_t = U_t C_t U_t^T
   Z_t.Eig(&c_t, &U_t);
   SortSvd(&c_t, &U_t);
   double c_t_floor = pow(rho_t_ * (1.0 - eta), 2);
   int32 nf;
   c_t.ApplyFloor(c_t_floor, &nf);
   if (nf > 0) {
     KALDI_WARN << "Floored " << nf << " elements of c_t.";
   }
   // KALDI_LOG << "c_t is " << c_t;
   // KALDI_LOG << "U_t is " << U_t;
   // KALDI_LOG << "Z_t is " << Z_t;
 
   Vector<double> sqrt_c_t(c_t);
   sqrt_c_t.ApplyPow(0.5);
   Vector<double> inv_sqrt_c_t(sqrt_c_t);
   inv_sqrt_c_t.InvertElements();
   Matrix<double> R_t1(R, D);
   // R_{t+1} = C_t^{-0.5} U_t^T Y_t
   R_t1.AddMatMat(1.0, U_t, kTrans, Y_t, kNoTrans, 0.0);
   R_t1.MulRowsVec(inv_sqrt_c_t);
 
   double rho_t1 = (1.0 / (D - R)) *
       (eta * S_t.Trace() + (1.0 - eta) * (D * rho_t_ + d_t_.Sum()) - sqrt_c_t.Sum());
 
   Vector<double> d_t1(sqrt_c_t);
   d_t1.Add(-rho_t1);
 
   double floor_val = std::max(epsilon_, delta_ * sqrt_c_t.Max());
   if (rho_t1 < floor_val) {
     KALDI_WARN << "flooring rho_{t+1} to " << floor_val << ", was " << rho_t1;
     rho_t1 = floor_val;
   }
   d_t1.ApplyFloor(floor_val, &nf);
   if (nf > 0) {
     KALDI_VLOG(3) << "d_t1 was " << d_t1;
     KALDI_WARN << "Floored " << nf << " elements of d_{t+1}.";
   }
   // a check.
   if (nf == 0 && rho_t1 > floor_val) {
     double tr_F_t1 = D * rho_t1 + d_t1.Sum(), tr_T_t = T_t.Trace();
     AssertEqual(tr_F_t1, tr_T_t);
   }
 
   // G_t = F_t + alpha/D tr(F_t)
   SpMatrix<double> G_t(F_t);
   G_t.AddToDiag(alpha_ / D * F_t.Trace());
   SpMatrix<double> G_t_inv(G_t);
   G_t_inv.Invert();
 
   double beta_t = rho_t_ + alpha_/D * F_t.Trace();
   // X_hat_t = beta_t X_t G_t^{-1}.
   Matrix<double> X_hat_t(N, D);
   X_hat_t.AddMatSp(beta_t, *X_t, kNoTrans, G_t_inv, 0.0);
 
   double tr_x_x = TraceMatMat(*X_t, *X_t, kTrans),
       tr_Xhat_Xhat = TraceMatMat(X_hat_t, X_hat_t, kTrans);
   double gamma = (tr_Xhat_Xhat == 0 ? 1.0 : sqrt(tr_x_x / tr_Xhat_Xhat));
 
   X_t->CopyFromMat(X_hat_t);
   row_prod->AddDiagMat2(1.0, *X_t, kNoTrans, 0.0);
   *scale = gamma;
 
   // Update the parameters
   rho_t_ = rho_t1;
   d_t_.CopyFromVec(d_t1);
   R_t_.CopyFromMat(R_t1);
 
   KALDI_VLOG(3) << "rho_t_ = " << rho_t_;
   KALDI_VLOG(3) << "d_t_ = " << d_t_;
   KALDI_VLOG(3) << "R_t_ = " << R_t_;
 
 
   { // check that R_t_ R_t_^T = I.
     SpMatrix<double> unit(R);
     unit.AddMat2(1.0, R_t_, kNoTrans, 0.0);
     if (!unit.IsUnit(1.0e-03)) {
       KALDI_WARN  << "R is not orthogonal, reorthogonalizing.";
       for (int32 i = 0; i < R; i++) {
         SubVector<double> row(R_t_, i);
         for (int32 j = 0; j < i; j++) {
           SubVector<double> row_j(R_t_, j);
           row.AddVec(-VecVec(row_j, row), row_j);
         }
         row.Scale(1.0 / row.Norm(2.0));
       }
     }
     unit.AddMat2(1.0, R_t_, kNoTrans, 0.0);
     KALDI_ASSERT(unit.IsUnit(1.0e-03));
   }
 }