doc/rbm-train-cd1-frmshuff_8cc_source.html

 // nnetbin/rbm-train-cd1-frmshuff.cc

 // Copyright 2012-2013  Brno University of Technology (Author: Karel Vesely)

 // See ../../COPYING for clarification regarding multiple authors
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
 // You may obtain a copy of the License at
 //
 //  http://www.apache.org/licenses/LICENSE-2.0
 //
 // THIS CODE IS PROVIDED *AS IS* BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 // KIND, EITHER EXPRESS OR IMPLIED, INCLUDING WITHOUT LIMITATION ANY IMPLIED
 // WARRANTIES OR CONDITIONS OF TITLE, FITNESS FOR A PARTICULAR PURPOSE,
 // MERCHANTABLITY OR NON-INFRINGEMENT.
 // See the Apache 2 License for the specific language governing permissions and
 // limitations under the License.

 #include "nnet/nnet-trnopts.h"
 #include "nnet/nnet-rbm.h"
 #include "nnet/nnet-nnet.h"
 #include "nnet/nnet-loss.h"
 #include "nnet/nnet-randomizer.h"
 #include "base/kaldi-common.h"
 #include "util/common-utils.h"
 #include "base/timer.h"
 #include "cudamatrix/cu-device.h"
 #include "cudamatrix/cu-rand.h"


 int main(int argc, char *argv[]) {
   using namespace kaldi;
   using namespace kaldi::nnet1;
   typedef kaldi::int32 int32;
   try {
     const char *usage =
       "Train RBM by Contrastive Divergence alg. with 1 step of "
       "Markov Chain Monte-Carlo.\n"
       "The tool can perform several iterations (--num-iters) "
       "or it can subsample the training dataset (--drop-data)\n"

       "Usage: rbm-train-cd1-frmshuff [options] <model-in> "
       "<feature-rspecifier> <model-out>\n"
       "e.g.: rbm-train-cd1-frmshuff 1.rbm.init scp:train.scp 1.rbm\n";

     ParseOptions po(usage);

     RbmTrainOptions trn_opts, trn_opts_rbm;
     trn_opts.Register(&po);
     LossOptions loss_opts;
     loss_opts.Register(&po);

     bool binary = false;
     po.Register("binary", &binary, "Write output in binary mode");

     bool with_bug = true;
     po.Register("with-bug", &with_bug,
         "Apply bug which led to better results (set-initial-momentum-to-max)");

     int32 num_iters = 1;
     po.Register("num-iters", &num_iters,
                 "Number of iterations (smaller datasets should have more iterations, "
                 "iterating within tool because of linear momentum scheduling)");

     std::string feature_transform;
     po.Register("feature-transform", &feature_transform,
         "Feature transform in 'nnet1' format");

     NnetDataRandomizerOptions rnd_opts;
     rnd_opts.minibatch_size = 100;
     rnd_opts.Register(&po);

     kaldi::int32 max_frames = 6000;
     po.Register("max-frames", &max_frames,
         "Maximum number of frames an utterance can have (skipped if longer)");

     std::string use_gpu="yes";
     po.Register("use-gpu", &use_gpu,
         "yes|no|optional, only has effect if compiled with CUDA");

     po.Read(argc, argv);

     if (po.NumArgs() != 3) {
       po.PrintUsage();
       exit(1);
     }

     std::string model_filename = po.GetArg(1),
         feature_rspecifier = po.GetArg(2);

     std::string target_model_filename;
     target_model_filename = po.GetArg(3);


     using namespace kaldi;
     using namespace kaldi::nnet1;
     typedef kaldi::int32 int32;

 #if HAVE_CUDA == 1
     CuDevice::Instantiate().SelectGpuId(use_gpu);
 #endif

     Nnet rbm_transf;
     if (feature_transform != "") {
       rbm_transf.Read(feature_transform);
     }

     // Read nnet, extract the RBM,
     Nnet nnet;
     nnet.Read(model_filename);
     KALDI_ASSERT(nnet.NumComponents() == 1);
     KALDI_ASSERT(nnet.GetComponent(0).GetType() == kaldi::nnet1::Component::kRbm);
     RbmBase &rbm = dynamic_cast<RbmBase&>(nnet.GetComponent(0));

     // Configure the RBM,
     // make some constants accessible, will use them later,
     const BaseFloat& learn_rate = trn_opts.learn_rate;
     const BaseFloat& momentum = trn_opts.momentum;
     const BaseFloat& momentum_max = trn_opts.momentum_max;
     const int32& momentum_steps = trn_opts.momentum_steps;
     const int32& momentum_step_period = trn_opts.momentum_step_period;

     // 'trn_opts_rbm' is a local copy of 'trn_opts' which is passed to RBM,
     trn_opts_rbm = trn_opts;
     // keep `effective' learning rate constant
     trn_opts_rbm.learn_rate = learn_rate * (1 - momentum);
     // pass options to RBM,
     rbm.SetRbmTrainOptions(trn_opts_rbm);

     kaldi::int64 total_frames = 0;

     SequentialBaseFloatMatrixReader feature_reader(feature_rspecifier);
     RandomizerMask randomizer_mask(rnd_opts);
     MatrixRandomizer feature_randomizer(rnd_opts);

     CuRand<BaseFloat> cu_rand;  // parallel random number generator,
     Mse mse(loss_opts);

     CuMatrix<BaseFloat> feats_transf,
                         pos_hid, pos_hid_aux,
                         neg_vis, neg_hid;
     CuMatrix<BaseFloat> dummy_mse_mat;

     Timer time;
     KALDI_LOG << "RBM TRAINING STARTED";

     int32 iter = 1;
     KALDI_LOG << "Iteration " << iter << "/" << num_iters;

     int32 num_done = 0, num_other_error = 0;
     while (!feature_reader.Done()) {
 #if HAVE_CUDA == 1
       // check that GPU is computing accurately,
       CuDevice::Instantiate().CheckGpuHealth();
 #endif
       // fill the randomizer,
       for ( ; !feature_reader.Done(); feature_reader.Next()) {
         if (feature_randomizer.IsFull()) {
           // break the loop without calling Next(),
           // we keep the 'utt' for next round,
           break;
         }
         std::string utt = feature_reader.Key();
         KALDI_VLOG(3) << "Reading " << utt;
         // get feature matrix,
         const Matrix<BaseFloat> &mat = feature_reader.Value();
         // skip too long segments (avoid runinning out of memory)
         if (mat.NumRows() > max_frames) {
           KALDI_WARN << "Skipping " << utt
             << " that has " << mat.NumRows() << " frames,"
             << " it is longer than '--max-frames'" << max_frames;
           num_other_error++;
           continue;
         }
         // apply feature transform,
         rbm_transf.Feedforward(CuMatrix<BaseFloat>(mat), &feats_transf);
         // add to randomizer,
         feature_randomizer.AddData(feats_transf);
         num_done++;

         // report the speed
         if (num_done % 5000 == 0) {
           double time_now = time.Elapsed();
           KALDI_VLOG(1) << "After " << num_done << " utterances: "
             << "time elapsed = " << time_now / 60 << " min; "
             << "processed " << total_frames / time_now << " frames per sec.";
         }
       }

       // randomize,
       feature_randomizer.Randomize(
         randomizer_mask.Generate(feature_randomizer.NumFrames())
       );

       // train with data from randomizer (using mini-batches)
       for ( ; !feature_randomizer.Done(); feature_randomizer.Next()) {
         // get the mini-batch,
         const CuMatrixBase<BaseFloat>& pos_vis = feature_randomizer.Value();
         // get the dims,
         int32 num_frames = pos_vis.NumRows(),
               dim_hid = rbm.OutputDim();
         // Create dummy frame-weights for Mse::Eval,
         Vector<BaseFloat> dummy_weights(num_frames);
         dummy_weights.Set(1.0);

         // TRAIN with CD1,
         // forward pass,
         rbm.Propagate(pos_vis, &pos_hid);

         // alter the hidden values, so we can generate negative example,
         if (rbm.HidType() == Rbm::Bernoulli) {
           pos_hid_aux.Resize(num_frames, dim_hid);
           cu_rand.BinarizeProbs(pos_hid, &pos_hid_aux);  // => 0 / 1,
         } else {
           KALDI_ASSERT(rbm.HidType() == Rbm::Gaussian);
           pos_hid_aux = pos_hid;
           cu_rand.AddGaussNoise(&pos_hid_aux);
         }

         // reconstruct pass,
         rbm.Reconstruct(pos_hid_aux, &neg_vis);
         // propagate negative examples
         rbm.Propagate(neg_vis, &neg_hid);
         // update step
         rbm.RbmUpdate(pos_vis, pos_hid, neg_vis, neg_hid);
         // evaluate mean square error
         mse.Eval(dummy_weights, neg_vis, pos_vis, &dummy_mse_mat);

         total_frames += num_frames;

         // change the momentum progressively per 0.5million samples of the data
         {
           static int32 n_prev = -1;
           BaseFloat step = (momentum_max - momentum) / momentum_steps;
           // change every momentum_step_period data,
           int32 n = total_frames / momentum_step_period;
           BaseFloat momentum_actual;
           if (n > momentum_steps) {
             momentum_actual = momentum_max;
           } else {
             momentum_actual = momentum + n*step;
           }
           if (n - n_prev > 0) {
             n_prev = n;
             BaseFloat learning_rate_actual = learn_rate*(1-momentum_actual);
             KALDI_VLOG(1) << "Setting momentum "
               << (with_bug ? momentum_max : momentum_actual)
               << " and learning rate " << learning_rate_actual
               << " after processing "
               << static_cast<double>(total_frames) / 360000 << " h";
             // pass values to rbm,
             trn_opts_rbm.momentum = (with_bug ? momentum_max : momentum_actual);
             trn_opts_rbm.learn_rate = learning_rate_actual;
             rbm.SetRbmTrainOptions(trn_opts_rbm);
           }
         }
       }

       // reopen the feature stream if we will run another iteration
       if (feature_reader.Done() && (iter < num_iters)) {
         iter++;
         KALDI_LOG << "Iteration " << iter << "/" << num_iters;
         feature_reader.Close();
         feature_reader.Open(feature_rspecifier);
       }
     }

     nnet.Write(target_model_filename, binary);

     KALDI_LOG << "Done " << iter << " iterations, " << num_done << " files, "
               << "skipped " << num_other_error << " files. "
               << "[" << time.Elapsed() / 60 << " min, "
               << "processing" << total_frames / time.Elapsed() << " "
               << "frames per sec.]";

     KALDI_LOG << mse.Report();

 #if HAVE_CUDA == 1
     CuDevice::Instantiate().PrintProfile();
 #endif
     return 0;
   } catch(const std::exception &e) {
     std::cerr << e.what();
     return -1;
   }
 }
kaldi::CuRand
Definition: cu-common.h:152

nnet-loss.h

kaldi
This code computes Goodness of Pronunciation (GOP) and extracts phone-level pronunciation feature for...
Definition: chain.dox:20

cu-rand.h

kaldi::nnet1
Definition: dnn1.dox:21

nnet-rbm.h

kaldi::nnet1::RbmTrainOptions::momentum_step_period
int32 momentum_step_period
Definition: nnet-trnopts.h:71

main
int main(int argc, char *argv[])
Definition: rbm-train-cd1-frmshuff.cc:32

kaldi::nnet1::RbmTrainOptions::learn_rate
BaseFloat learn_rate
Definition: nnet-trnopts.h:67

cu-device.h

kaldi::nnet1::RbmTrainOptions::momentum_max
BaseFloat momentum_max
Definition: nnet-trnopts.h:69

kaldi::nnet1::Nnet::NumComponents
int32 NumComponents() const
Returns the number of &#39;Components&#39; which form the NN.
Definition: nnet-nnet.h:66

kaldi::ParseOptions::PrintUsage
void PrintUsage(bool print_command_line=false)
Prints the usage documentation [provided in the constructor].
Definition: parse-options.cc:393

kaldi::SequentialTableReader::Key
std::string Key()
Definition: kaldi-table-inl.h:918

kaldi::nnet1::Nnet::Write
void Write(const std::string &wxfilename, bool binary) const
Write Nnet to &#39;wxfilename&#39;,.
Definition: nnet-nnet.cc:367

kaldi::nnet1::MatrixRandomizer::Next
void Next()
Sets cursor to next mini-batch.
Definition: nnet-randomizer.cc:98

kaldi::nnet1::RandomizerMask
Generates randomly ordered vector of indices,.
Definition: nnet-randomizer.h:64

kaldi::CuRand::BinarizeProbs
void BinarizeProbs(const CuMatrix< Real > &probs, CuMatrix< Real > *states)
align probabilities to discrete 0/1 states (use uniform sampling),
Definition: cu-rand.cc:201

kaldi::SequentialTableReader::Open
bool Open(const std::string &rspecifier)
Definition: kaldi-table-inl.h:864

kaldi::nnet1::RbmTrainOptions::momentum
BaseFloat momentum
Definition: nnet-trnopts.h:68

kaldi::nnet1::MatrixRandomizer::Done
bool Done()
Returns true, if no more data for another mini-batch (after current one)
Definition: nnet-randomizer.h:123

kaldi::int32
kaldi::int32 int32
Definition: online-tcp-source.cc:27

common-utils.h

kaldi::nnet1::RbmTrainOptions
Definition: nnet-trnopts.h:65

kaldi::Matrix< BaseFloat >

kaldi::CuMatrix
This class represents a matrix that&#39;s stored on the GPU if we have one, and in memory if not...
Definition: matrix-common.h:71

kaldi::CuRand::AddGaussNoise
void AddGaussNoise(CuMatrix< Real > *tgt, Real gscale=1.0)
add gaussian noise to each element,
Definition: cu-rand.cc:211

timer.h

kaldi::nnet1::LossOptions
Definition: nnet-loss.h:38

kaldi::ParseOptions::Register
void Register(const std::string &name, bool *ptr, const std::string &doc)
Definition: parse-options.cc:56

kaldi::nnet1::RbmTrainOptions::momentum_steps
int32 momentum_steps
Definition: nnet-trnopts.h:70

kaldi::nnet1::Mse::Report
std::string Report()
Generate string with error report.
Definition: nnet-loss.cc:299

kaldi::nnet1::RbmBase::Bernoulli
Definition: nnet-rbm.h:38

kaldi::nnet1::RbmTrainOptions::Register
void Register(OptionsItf *opts)
Definition: nnet-trnopts.h:86

kaldi::nnet1::MatrixRandomizer::NumFrames
int32 NumFrames()
Number of frames stored inside the Randomizer.
Definition: nnet-randomizer.h:115

kaldi::nnet1::NnetDataRandomizerOptions
Configuration variables that affect how frame-level shuffling is done.
Definition: nnet-randomizer.h:38

kaldi::BaseFloat
float BaseFloat
Definition: kaldi-types.h:29

kaldi::ParseOptions
The class ParseOptions is for parsing command-line options; see Parsing command-line options for more...
Definition: parse-options.h:36

kaldi::nnet1::RbmBase
Definition: nnet-rbm.h:35

rnnlm::n
struct rnnlm::@11::@12 n

kaldi::nnet1::NnetDataRandomizerOptions::minibatch_size
int32 minibatch_size
Definition: nnet-randomizer.h:41

kaldi::SequentialTableReader
A templated class for reading objects sequentially from an archive or script file; see The Table conc...
Definition: kaldi-table.h:287

kaldi::nnet1::Mse::Eval
void Eval(const VectorBase< BaseFloat > &frame_weights, const CuMatrixBase< BaseFloat > &net_out, const CuMatrixBase< BaseFloat > &target, CuMatrix< BaseFloat > *diff)
Evaluate mean square error using target-matrix,.
Definition: nnet-loss.cc:228

kaldi::nnet1::Nnet
Definition: nnet-nnet.h:37

kaldi::ParseOptions::Read
int Read(int argc, const char *const *argv)
Parses the command line options and fills the ParseOptions-registered variables.
Definition: parse-options.cc:311

kaldi::SequentialTableReader::Done
bool Done()
Definition: kaldi-table-inl.h:948

kaldi::nnet1::Nnet::Read
void Read(const std::string &rxfilename)
Read Nnet from &#39;rxfilename&#39;,.
Definition: nnet-nnet.cc:333

kaldi::nnet1::Component::kRbm
Definition: nnet-component.h:69

kaldi::SequentialTableReader::Close
bool Close()
Definition: kaldi-table-inl.h:901

KALDI_WARN
#define KALDI_WARN
Definition: kaldi-error.h:150

kaldi::ParseOptions::GetArg
std::string GetArg(int param) const
Returns one of the positional parameters; 1-based indexing for argc/argv compatibility.
Definition: parse-options.cc:202

kaldi::SequentialTableReader::Next
void Next()
Definition: kaldi-table-inl.h:942

kaldi::nnet1::MatrixRandomizer::Randomize
void Randomize(const std::vector< int32 > &mask)
Randomize matrix row-order using mask.
Definition: nnet-randomizer.cc:79

nnet-randomizer.h

kaldi::nnet1::Nnet::Feedforward
void Feedforward(const CuMatrixBase< BaseFloat > &in, CuMatrix< BaseFloat > *out)
Perform forward pass through the network (with 2 swapping buffers),.
Definition: nnet-nnet.cc:131

kaldi::Timer
Definition: timer.h:63

nnet-trnopts.h

kaldi::nnet1::MatrixRandomizer::Value
const CuMatrixBase< BaseFloat > & Value()
Returns matrix-window with next mini-batch.
Definition: nnet-randomizer.cc:102

kaldi::ParseOptions::NumArgs
int NumArgs() const
Number of positional parameters (c.f. argc-1).
Definition: parse-options.cc:198

kaldi::nnet1::MatrixRandomizer
Shuffles rows of a matrix according to the indices in the mask,.
Definition: nnet-randomizer.h:87

kaldi::CuMatrixBase
Matrix for CUDA computing.
Definition: matrix-common.h:69

nnet-nnet.h

kaldi::nnet1::RandomizerMask::Generate
const std::vector< int32 > & Generate(int32 mask_size)
Generate randomly ordered vector of integers 0..[mask_size -1],.
Definition: nnet-randomizer.cc:36

kaldi::Vector
A class representing a vector.
Definition: kaldi-vector.h:406

kaldi::SequentialTableReader::Value
T & Value()
Definition: kaldi-table-inl.h:934

KALDI_ASSERT
#define KALDI_ASSERT(cond)
Definition: kaldi-error.h:185

kaldi::MatrixBase::NumRows
MatrixIndexT NumRows() const
Returns number of rows (or zero for empty matrix).
Definition: kaldi-matrix.h:64

kaldi::VectorBase::Set
void Set(Real f)
Set all members of a vector to a specified value.
Definition: kaldi-vector.cc:336

kaldi::nnet1::NnetDataRandomizerOptions::Register
void Register(OptionsItf *opts)
Definition: nnet-randomizer.h:49

kaldi::nnet1::RbmBase::Gaussian
Definition: nnet-rbm.h:39

KALDI_VLOG
#define KALDI_VLOG(v)
Definition: kaldi-error.h:156

kaldi::nnet1::Nnet::GetComponent
const Component & GetComponent(int32 c) const
Component accessor,.
Definition: nnet-nnet.cc:153

kaldi::nnet1::Component::GetType
virtual ComponentType GetType() const =0
Get Type Identification of the component,.

kaldi::nnet1::Mse
Definition: nnet-loss.h:149

kaldi::nnet1::LossOptions::Register
void Register(OptionsItf *opts)
Definition: nnet-loss.h:45

kaldi::CuMatrixBase::NumRows
MatrixIndexT NumRows() const
Dimensions.
Definition: cu-matrix.h:215

KALDI_LOG
#define KALDI_LOG
Definition: kaldi-error.h:153

kaldi::Timer::Elapsed
double Elapsed() const
Returns time in seconds.
Definition: timer.h:74

kaldi-common.h

kaldi::nnet1::MatrixRandomizer::AddData
void AddData(const CuMatrixBase< BaseFloat > &m)
Add data to randomization buffer.
Definition: nnet-randomizer.cc:47

kaldi::nnet1::MatrixRandomizer::IsFull
bool IsFull()
Returns true, when capacity is full.
Definition: nnet-randomizer.h:110

kaldi::CuMatrix::Resize
void Resize(MatrixIndexT rows, MatrixIndexT cols, MatrixResizeType resize_type=kSetZero, MatrixStrideType stride_type=kDefaultStride)
Allocate the memory.
Definition: cu-matrix.cc:50