doc/gmm-global-init-from-feats_8cc_source.html

 // gmmbin/gmm-global-init-from-feats.cc

 // Copyright 2013   Johns Hopkins University (author: Daniel Povey)

 // See ../../COPYING for clarification regarding multiple authors
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
 // You may obtain a copy of the License at
 //
 //  http://www.apache.org/licenses/LICENSE-2.0
 //
 // THIS CODE IS PROVIDED *AS IS* BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 // KIND, EITHER EXPRESS OR IMPLIED, INCLUDING WITHOUT LIMITATION ANY IMPLIED
 // WARRANTIES OR CONDITIONS OF TITLE, FITNESS FOR A PARTICULAR PURPOSE,
 // MERCHANTABLITY OR NON-INFRINGEMENT.
 // See the Apache 2 License for the specific language governing permissions and
 // limitations under the License.


 #include "base/kaldi-common.h"
 #include "util/common-utils.h"
 #include "gmm/model-common.h"
 #include "gmm/full-gmm.h"
 #include "gmm/diag-gmm.h"
 #include "gmm/mle-full-gmm.h"

 namespace kaldi {

 // We initialize the GMM parameters by setting the variance to the global
 // variance of the features, and the means to distinct randomly chosen frames.
 void InitGmmFromRandomFrames(const Matrix<BaseFloat> &feats, DiagGmm *gmm) {
   int32 num_gauss = gmm->NumGauss(), num_frames = feats.NumRows(),
       dim = feats.NumCols();
   KALDI_ASSERT(num_frames >= 10 * num_gauss && "Too few frames to train on");
   Vector<double> mean(dim), var(dim);
   for (int32 i = 0; i < num_frames; i++) {
     mean.AddVec(1.0 / num_frames, feats.Row(i));
     var.AddVec2(1.0 / num_frames, feats.Row(i));
   }
   var.AddVec2(-1.0, mean);
   if (var.Max() <= 0.0)
     KALDI_ERR << "Features do not have positive variance " << var;

   DiagGmmNormal gmm_normal(*gmm);

   std::set<int32> used_frames;
   for (int32 g = 0; g < num_gauss; g++) {
     int32 random_frame = RandInt(0, num_frames - 1);
     while (used_frames.count(random_frame) != 0)
       random_frame = RandInt(0, num_frames - 1);
     used_frames.insert(random_frame);
     gmm_normal.weights_(g) = 1.0 / num_gauss;
     gmm_normal.means_.Row(g).CopyFromVec(feats.Row(random_frame));
     gmm_normal.vars_.Row(g).CopyFromVec(var);
   }
   gmm->CopyFromNormal(gmm_normal);
   gmm->ComputeGconsts();
 }

 void TrainOneIter(const Matrix<BaseFloat> &feats,
                   const MleDiagGmmOptions &gmm_opts,
                   int32 iter,
                   int32 num_threads,
                   DiagGmm *gmm) {
   AccumDiagGmm gmm_acc(*gmm, kGmmAll);

   Vector<BaseFloat> frame_weights(feats.NumRows(), kUndefined);
   frame_weights.Set(1.0);

   double tot_like;
   tot_like = gmm_acc.AccumulateFromDiagMultiThreaded(*gmm, feats, frame_weights,
                                                      num_threads);

   KALDI_LOG << "Likelihood per frame on iteration " << iter
             << " was " << (tot_like / feats.NumRows()) << " over "
             << feats.NumRows() << " frames.";

   BaseFloat objf_change, count;
   MleDiagGmmUpdate(gmm_opts, gmm_acc, kGmmAll, gmm, &objf_change, &count);

   KALDI_LOG << "Objective-function change on iteration " << iter << " was "
             << (objf_change / count) << " over " << count << " frames.";
 }

 } // namespace kaldi

 int main(int argc, char *argv[]) {
   try {
     using namespace kaldi;

     const char *usage =
         "This program initializes a single diagonal GMM and does multiple iterations of\n"
         "training from features stored in memory.\n"
         "Usage:  gmm-global-init-from-feats [options] <feature-rspecifier> <model-out>\n"
         "e.g.: gmm-global-init-from-feats scp:train.scp 1.mdl\n";

     ParseOptions po(usage);
     MleDiagGmmOptions gmm_opts;

     bool binary = true;
     int32 num_gauss = 100;
     int32 num_gauss_init = 0;
     int32 num_iters = 50;
     int32 num_frames = 200000;
     int32 srand_seed = 0;
     int32 num_threads = 4;

     po.Register("binary", &binary, "Write output in binary mode");
     po.Register("num-gauss", &num_gauss, "Number of Gaussians in the model");
     po.Register("num-gauss-init", &num_gauss_init, "Number of Gaussians in "
                 "the model initially (if nonzero and less than num_gauss, "
                 "we'll do mixture splitting)");
     po.Register("num-iters", &num_iters, "Number of iterations of training");
     po.Register("num-frames", &num_frames, "Number of feature vectors to store in "
                 "memory and train on (randomly chosen from the input features)");
     po.Register("srand", &srand_seed, "Seed for random number generator ");
     po.Register("num-threads", &num_threads, "Number of threads used for "
                 "statistics accumulation");

     gmm_opts.Register(&po);

     po.Read(argc, argv);

     srand(srand_seed);

     if (po.NumArgs() != 2) {
       po.PrintUsage();
       exit(1);
     }

     std::string feature_rspecifier = po.GetArg(1),
         model_wxfilename = po.GetArg(2);

     Matrix<BaseFloat> feats;

     SequentialBaseFloatMatrixReader feature_reader(feature_rspecifier);


     KALDI_ASSERT(num_frames > 0);

     int64 num_read = 0, dim = 0;

     KALDI_LOG << "Reading features (will keep " << num_frames << " frames.)";

     for (; !feature_reader.Done(); feature_reader.Next()) {
       const Matrix<BaseFloat>  &this_feats = feature_reader.Value();
       for (int32 t = 0; t < this_feats.NumRows(); t++) {
         num_read++;
         if (dim == 0) {
           dim = this_feats.NumCols();
           feats.Resize(num_frames, dim);
         } else if (this_feats.NumCols() != dim) {
           KALDI_ERR << "Features have inconsistent dims "
                     << this_feats.NumCols() << " vs. " << dim
                     << " (current utt is) " << feature_reader.Key();
         }
         if (num_read <= num_frames) {
           feats.Row(num_read - 1).CopyFromVec(this_feats.Row(t));
         } else {
           BaseFloat keep_prob = num_frames / static_cast<BaseFloat>(num_read);
           if (WithProb(keep_prob)) { // With probability "keep_prob"
             feats.Row(RandInt(0, num_frames - 1)).CopyFromVec(this_feats.Row(t));
           }
         }
       }
     }

     if (num_read < num_frames) {
       KALDI_WARN << "Number of frames read " << num_read << " was less than "
                  << "target number " << num_frames << ", using all we read.";
       feats.Resize(num_read, dim, kCopyData);
     } else {
       BaseFloat percent = num_frames * 100.0 / num_read;
       KALDI_LOG << "Kept " << num_frames << " out of " << num_read
                 << " input frames = " << percent << "%.";
     }

     if (num_gauss_init <= 0 || num_gauss_init > num_gauss)
       num_gauss_init = num_gauss;

     DiagGmm gmm(num_gauss_init, dim);

     KALDI_LOG << "Initializing GMM means from random frames to "
               << num_gauss_init << " Gaussians.";
     InitGmmFromRandomFrames(feats, &gmm);

     // we'll increase the #Gaussians by splitting,
     // till halfway through training.
     int32 cur_num_gauss = num_gauss_init,
         gauss_inc = (num_gauss - num_gauss_init) / (num_iters / 2);

     for (int32 iter = 0; iter < num_iters; iter++) {
       TrainOneIter(feats, gmm_opts, iter, num_threads, &gmm);

       int32 next_num_gauss = std::min(num_gauss, cur_num_gauss + gauss_inc);
       if (next_num_gauss > gmm.NumGauss()) {
         KALDI_LOG << "Splitting to " << next_num_gauss << " Gaussians.";
         gmm.Split(next_num_gauss, 0.1);
         cur_num_gauss = next_num_gauss;
       }
     }

     WriteKaldiObject(gmm, model_wxfilename, binary);
     KALDI_LOG << "Wrote model to " << model_wxfilename;
     return 0;
   } catch(const std::exception &e) {
     std::cerr << e.what();
     return -1;
   }
 }
kaldi
This code computes Goodness of Pronunciation (GOP) and extracts phone-level pronunciation feature for...
Definition: chain.dox:20

kaldi::kUndefined
Definition: matrix-common.h:39

diag-gmm.h

kaldi::AccumDiagGmm::AccumulateFromDiagMultiThreaded
BaseFloat AccumulateFromDiagMultiThreaded(const DiagGmm &gmm, const MatrixBase< BaseFloat > &data, const VectorBase< BaseFloat > &frame_weights, int32 num_threads)
This does the same job as AccumulateFromDiag, but using multiple threads.
Definition: mle-diag-gmm.cc:538

kaldi::DiagGmm::Split
void Split(int32 target_components, float perturb_factor, std::vector< int32 > *history=NULL)
Split the components and remember the order in which the components were split.
Definition: diag-gmm.cc:154

kaldi::DiagGmmNormal
Definition for Gaussian Mixture Model with diagonal covariances in normal mode: where the parameters ...
Definition: diag-gmm-normal.h:45

kaldi::MatrixBase::NumCols
MatrixIndexT NumCols() const
Returns number of columns (or zero for empty matrix).
Definition: kaldi-matrix.h:67

kaldi::MleDiagGmmUpdate
void MleDiagGmmUpdate(const MleDiagGmmOptions &config, const AccumDiagGmm &diag_gmm_acc, GmmFlagsType flags, DiagGmm *gmm, BaseFloat *obj_change_out, BaseFloat *count_out, int32 *floored_elements_out, int32 *floored_gaussians_out, int32 *removed_gaussians_out)
for computing the maximum-likelihood estimates of the parameters of a Gaussian mixture model...
Definition: mle-diag-gmm.cc:275

kaldi::ParseOptions::PrintUsage
void PrintUsage(bool print_command_line=false)
Prints the usage documentation [provided in the constructor].
Definition: parse-options.cc:393

kaldi::SequentialTableReader::Key
std::string Key()
Definition: kaldi-table-inl.h:918

kaldi::AccumDiagGmm
Definition: mle-diag-gmm.h:106

kaldi::WithProb
bool WithProb(BaseFloat prob, struct RandomState *state)
Definition: kaldi-math.cc:72

kaldi::DiagGmm::ComputeGconsts
int32 ComputeGconsts()
Sets the gconsts.
Definition: diag-gmm.cc:114

kaldi::int32
kaldi::int32 int32
Definition: online-tcp-source.cc:27

common-utils.h

kaldi::Matrix< BaseFloat >

main
int main(int argc, char *argv[])
Definition: gmm-global-init-from-feats.cc:88

kaldi::ParseOptions::Register
void Register(const std::string &name, bool *ptr, const std::string &doc)
Definition: parse-options.cc:56

kaldi::TrainOneIter
void TrainOneIter(const Matrix< BaseFloat > &feats, const MleDiagGmmOptions &gmm_opts, int32 iter, int32 num_threads, DiagGmm *gmm)
Definition: gmm-global-init-from-feats.cc:61

mle-full-gmm.h

kaldi::VectorBase::AddVec2
void AddVec2(const Real alpha, const VectorBase< Real > &v)
Add vector : *this = *this + alpha * rv^2 [element-wise squaring].
Definition: kaldi-vector.cc:1255

full-gmm.h

count
const size_t count
Definition: arpa-file-parser-test.cc:66

kaldi::BaseFloat
float BaseFloat
Definition: kaldi-types.h:29

kaldi::ParseOptions
The class ParseOptions is for parsing command-line options; see Parsing command-line options for more...
Definition: parse-options.h:36

kaldi::MatrixBase::Row
const SubVector< Real > Row(MatrixIndexT i) const
Return specific row of matrix [const].
Definition: kaldi-matrix.h:188

float

kaldi::MleDiagGmmOptions::Register
void Register(OptionsItf *opts)
Definition: mle-diag-gmm.h:59

kaldi::SequentialTableReader
A templated class for reading objects sequentially from an archive or script file; see The Table conc...
Definition: kaldi-table.h:287

kaldi::ParseOptions::Read
int Read(int argc, const char *const *argv)
Parses the command line options and fills the ParseOptions-registered variables.
Definition: parse-options.cc:311

kaldi::SequentialTableReader::Done
bool Done()
Definition: kaldi-table-inl.h:948

KALDI_ERR
#define KALDI_ERR
Definition: kaldi-error.h:147

kaldi::VectorBase::Max
Real Max() const
Returns the maximum value of any element, or -infinity for the empty vector.
Definition: kaldi-vector.cc:574

KALDI_WARN
#define KALDI_WARN
Definition: kaldi-error.h:150

kaldi::ParseOptions::GetArg
std::string GetArg(int param) const
Returns one of the positional parameters; 1-based indexing for argc/argv compatibility.
Definition: parse-options.cc:202

kaldi::SequentialTableReader::Next
void Next()
Definition: kaldi-table-inl.h:942

kaldi::DiagGmmNormal::vars_
Matrix< double > vars_
diagonal variance
Definition: diag-gmm-normal.h:68

kaldi::DiagGmm::NumGauss
int32 NumGauss() const
Returns the number of mixture components in the GMM.
Definition: diag-gmm.h:72

kaldi::MleDiagGmmOptions
Configuration variables like variance floor, minimum occupancy, etc.
Definition: mle-diag-gmm.h:38

kaldi::kGmmAll
Definition: model-common.h:33

kaldi::kCopyData
Definition: matrix-common.h:40

rnnlm::i
int i
Definition: mikolov-rnnlm-lib.cc:66

kaldi::ParseOptions::NumArgs
int NumArgs() const
Number of positional parameters (c.f. argc-1).
Definition: parse-options.cc:198

kaldi::DiagGmmNormal::means_
Matrix< double > means_
Means.
Definition: diag-gmm-normal.h:67

kaldi::Vector< double >

kaldi::SequentialTableReader::Value
T & Value()
Definition: kaldi-table-inl.h:934

KALDI_ASSERT
#define KALDI_ASSERT(cond)
Definition: kaldi-error.h:185

kaldi::MatrixBase::NumRows
MatrixIndexT NumRows() const
Returns number of rows (or zero for empty matrix).
Definition: kaldi-matrix.h:64

kaldi::VectorBase::Set
void Set(Real f)
Set all members of a vector to a specified value.
Definition: kaldi-vector.cc:336

kaldi::InitGmmFromRandomFrames
void InitGmmFromRandomFrames(const Matrix< BaseFloat > &feats, DiagGmm *gmm)
Definition: gmm-global-init-from-feats.cc:32

kaldi::DiagGmm
Definition for Gaussian Mixture Model with diagonal covariances.
Definition: diag-gmm.h:42

kaldi::WriteKaldiObject
void WriteKaldiObject(const C &c, const std::string &filename, bool binary)
Definition: kaldi-io.h:257

model-common.h

kaldi::Matrix::Resize
void Resize(const MatrixIndexT r, const MatrixIndexT c, MatrixResizeType resize_type=kSetZero, MatrixStrideType stride_type=kDefaultStride)
Sets matrix to a specified size (zero is OK as long as both r and c are zero).
Definition: kaldi-matrix.cc:819

kaldi::DiagGmmNormal::weights_
Vector< double > weights_
weights (not log).
Definition: diag-gmm-normal.h:66

kaldi::DiagGmm::CopyFromNormal
void CopyFromNormal(const DiagGmmNormal &diag_gmm_normal)
Copies from DiagGmmNormal; does not resize.
Definition: diag-gmm.cc:918

KALDI_LOG
#define KALDI_LOG
Definition: kaldi-error.h:153

kaldi-common.h

kaldi::RandInt
int32 RandInt(int32 min_val, int32 max_val, struct RandomState *state)
Definition: kaldi-math.cc:95