doc/nnet-example-functions_8h_source.html

 // nnet2/nnet-example-functions.h

 // Copyright 2013  Johns Hopkins University (author: Daniel Povey)

 // See ../../COPYING for clarification regarding multiple authors
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
 // You may obtain a copy of the License at
 //
 //  http://www.apache.org/licenses/LICENSE-2.0
 //
 // THIS CODE IS PROVIDED *AS IS* BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 // KIND, EITHER EXPRESS OR IMPLIED, INCLUDING WITHOUT LIMITATION ANY IMPLIED
 // WARRANTIES OR CONDITIONS OF TITLE, FITNESS FOR A PARTICULAR PURPOSE,
 // MERCHANTABLITY OR NON-INFRINGEMENT.
 // See the Apache 2 License for the specific language governing permissions and
 // limitations under the License.

 #ifndef KALDI_NNET2_NNET_EXAMPLE_FUNCTIONS_H_
 #define KALDI_NNET2_NNET_EXAMPLE_FUNCTIONS_H_

 #include "nnet2/nnet-nnet.h"
 #include "util/table-types.h"
 #include "lat/kaldi-lattice.h"
 #include "nnet2/nnet-example.h"
 #include "hmm/transition-model.h"
 #include "hmm/posterior.h"

 namespace kaldi {
 namespace nnet2 {

 // Glossary: mmi = Maximum Mutual Information,
 //          mpfe = Minimum Phone Frame Error
 //          smbr = State-level Minimum Bayes Risk


 // This file relates to the creation of examples for discriminative training
 // (see struct DiscriminativeNnetExample, in ./nnet-example.h).


 struct SplitDiscriminativeExampleConfig {
   // This is the maximum length in frames that any example is allowed to have.
   // We will split training examples to ensure that they are no longer than
   // this.  Note: if you make this too short it may have bad effects because
   // the posteriors start to become inaccurate at the edges of the training
   // example (since they will be based on the acoustic model that was used to
   // generate the lattices, not the current one).
   int32 max_length;

   // criterion can be "smbr" or "mpfe" or "mmi".  This info is only needed to
   // determine which parts of the lattices will not contribute to training and
   // can be discarded (for mpe/smbr, any part where the den-lat has only one
   // path or all den-lat paths map to the same pdf can be discareded; for mmi,
   // any part where the den-lat's pdfs all have the same value as the num-lat
   // pdf for that frame, can be discarded.
   std::string criterion;

   bool collapse_transition_ids;

   bool determinize;

   bool minimize; // we'll push and minimize if this is true.

   bool test;

   bool drop_frames; // For MMI, true if we will eventually drop frames in which
                     // the numerator does not appear in the denominator lattice.
                     // (i.e. we won't backpropagate any derivatives on those
                     // frames).  We may still need to include those frames in
                     // the computation in order to get correct posteriors for
                     // other parts of the lattice.

   bool split; // if false, we won't split at all.

   bool excise; // if false, we will skip the "excise" step.

   SplitDiscriminativeExampleConfig():
       max_length(1024), criterion("smbr"), collapse_transition_ids(true),
       determinize(true), minimize(true), test(false), drop_frames(false),
       split(true), excise(true) { }

   void Register(OptionsItf *opts) {

     opts->Register("max-length", &max_length, "Maximum length allowed for any "
                    "segment (i.e. max #frames for any example");
     //opts->Register("target-length", &target_length, "Target length for a "
     // "segment");
     opts->Register("criterion", &criterion, "Criterion, 'mmi'|'mpfe'|'smbr'. "
                    "Determines which frames may be dropped from lattices.");
     opts->Register("collapse-transition-ids", &collapse_transition_ids,
                    "This option included for debugging purposes");
     opts->Register("determinize", &determinize, "If true, we determinize "
                    "lattices (as Lattice) before splitting and possibly minimize");
     opts->Register("minimize", &minimize, "If true, we push and "
                    "minimize lattices (as Lattice) before splitting");
     opts->Register("test", &test, "If true, activate self-testing code.");
     // See "Sequence-discriminative training of deep neural networks", Vesely et al,
     // ICASSP 2013 for explanation of frame dropping.
     opts->Register("drop-frames", &drop_frames, "For MMI, if true we drop frames "
                    "with no overlap of num and den pdf-ids");
     opts->Register("split", &split, "Set to false to disable lattice-splitting.");
     opts->Register("excise", &excise, "Set to false to disable excising un-needed "
                    "frames (option included for debug purposes)");
   }
 };

 struct SplitExampleStats {
   int32 num_lattices;
   int32 longest_lattice;
   int32 num_segments;
   int32 num_kept_segments;
   int64 num_frames_orig;
   int64 num_frames_must_keep;
   int64 num_frames_kept_after_split;
   int32 longest_segment_after_split;
   int64 num_frames_kept_after_excise;
   int32 longest_segment_after_excise;

   SplitExampleStats() { memset(this, 0, sizeof(*this)); }
   void Print();
 };

 bool LatticeToDiscriminativeExample(
     const std::vector<int32> &alignment,
     const Matrix<BaseFloat> &feats,
     const CompactLattice &clat,
     BaseFloat weight,
     int32 left_context,
     int32 right_context,
     DiscriminativeNnetExample *eg);


 void SplitDiscriminativeExample(
     const SplitDiscriminativeExampleConfig &config,
     const TransitionModel &tmodel,
     const DiscriminativeNnetExample &eg,
     std::vector<DiscriminativeNnetExample> *egs_out,
     SplitExampleStats *stats_out);

 void ExciseDiscriminativeExample(
     const SplitDiscriminativeExampleConfig &config,
     const TransitionModel &tmodel,
     const DiscriminativeNnetExample &eg,
     std::vector<DiscriminativeNnetExample> *egs_out,
     SplitExampleStats *stats_out);


 void AppendDiscriminativeExamples(
     const std::vector<const DiscriminativeNnetExample*> &input,
     DiscriminativeNnetExample *output);

 void CombineDiscriminativeExamples(
     int32 max_length,
     const std::vector<DiscriminativeNnetExample> &input,
     std::vector<DiscriminativeNnetExample> *output);

 void SolvePackingProblem(BaseFloat max_cost,
                          const std::vector<BaseFloat> &costs,
                          std::vector<std::vector<size_t> > *groups);


 void ExampleToPdfPost(
     const TransitionModel &tmodel,
     const std::vector<int32> &silence_phones,
     std::string criterion,
     bool drop_frames,
     bool one_silence_class,
     const DiscriminativeNnetExample &eg,
     Posterior *post);

 void UpdateHash(
     const TransitionModel &tmodel,
     const DiscriminativeNnetExample &eg,
     std::string criterion,
     bool drop_frames,
     bool one_silence_class,
     Matrix<double> *hash,
     double *num_weight,
     double *den_weight,
     double *tot_t);


 } // namespace nnet2
 } // namespace kaldi

 #endif // KALDI_NNET2_NNET_EXAMPLE_FUNCTIONS_H_
kaldi::nnet2::SplitDiscriminativeExampleConfig::collapse_transition_ids
bool collapse_transition_ids
Definition: nnet-example-functions.h:68

kaldi
This code computes Goodness of Pronunciation (GOP) and extracts phone-level pronunciation feature for...
Definition: chain.dox:20

kaldi::nnet2::SplitExampleStats::num_frames_kept_after_split
int64 num_frames_kept_after_split
Definition: nnet-example-functions.h:128

kaldi::nnet2::SplitDiscriminativeExampleConfig::split
bool split
Definition: nnet-example-functions.h:83

kaldi::nnet2::SplitExampleStats::num_segments
int32 num_segments
Definition: nnet-example-functions.h:124

kaldi::nnet2::SplitExampleStats::SplitExampleStats
SplitExampleStats()
Definition: nnet-example-functions.h:133

nnet-nnet.h

kaldi::nnet2::SplitExampleStats::longest_lattice
int32 longest_lattice
Definition: nnet-example-functions.h:123

kaldi::nnet2::SplitDiscriminativeExampleConfig::drop_frames
bool drop_frames
Definition: nnet-example-functions.h:76

kaldi::nnet2::SplitDiscriminativeExample
void SplitDiscriminativeExample(const SplitDiscriminativeExampleConfig &config, const TransitionModel &tmodel, const DiscriminativeNnetExample &eg, std::vector< DiscriminativeNnetExample > *egs_out, SplitExampleStats *stats_out)
Split a "discriminative example" into multiple pieces, splitting where the lattice has "pinch points"...
Definition: nnet-example-functions.cc:764

kaldi::nnet2::SplitExampleStats::num_frames_must_keep
int64 num_frames_must_keep
Definition: nnet-example-functions.h:127

kaldi::nnet2::ExciseDiscriminativeExample
void ExciseDiscriminativeExample(const SplitDiscriminativeExampleConfig &config, const TransitionModel &tmodel, const DiscriminativeNnetExample &eg, std::vector< DiscriminativeNnetExample > *egs_out, SplitExampleStats *stats_out)
Remove unnecessary frames from discriminative training example.
Definition: nnet-example-functions.cc:775

kaldi::nnet2::SplitExampleStats::longest_segment_after_excise
int32 longest_segment_after_excise
Definition: nnet-example-functions.h:131

kaldi::nnet2::UpdateHash
void UpdateHash(const TransitionModel &tmodel, const DiscriminativeNnetExample &eg, std::string criterion, bool drop_frames, bool one_silence_class, Matrix< double > *hash, double *num_weight, double *den_weight, double *tot_t)
This function is used in code that tests the functionality that we provide here, about splitting and ...
Definition: nnet-example-functions.cc:786

kaldi::nnet2::SplitExampleStats::num_kept_segments
int32 num_kept_segments
Definition: nnet-example-functions.h:125

kaldi::int32
kaldi::int32 int32
Definition: online-tcp-source.cc:27

kaldi::Matrix< BaseFloat >

kaldi::nnet2::SplitDiscriminativeExampleConfig::minimize
bool minimize
Definition: nnet-example-functions.h:72

kaldi::nnet2::CombineDiscriminativeExamples
void CombineDiscriminativeExamples(int32 max_length, const std::vector< DiscriminativeNnetExample > &input, std::vector< DiscriminativeNnetExample > *output)
This function is used to combine multiple discriminative-training examples (each corresponding to a s...
Definition: nnet-example-functions.cc:970

posterior.h

kaldi::nnet2::SplitExampleStats
This struct exists only for diagnostic purposes.
Definition: nnet-example-functions.h:121

kaldi::OptionsItf::Register
virtual void Register(const std::string &name, bool *ptr, const std::string &doc)=0

kaldi::TransitionModel
Definition: transition-model.h:123

kaldi-lattice.h

table-types.h

kaldi::nnet2::SplitExampleStats::longest_segment_after_split
int32 longest_segment_after_split
Definition: nnet-example-functions.h:129

kaldi::nnet2::SplitExampleStats::num_frames_kept_after_excise
int64 num_frames_kept_after_excise
Definition: nnet-example-functions.h:130

kaldi::Posterior
std::vector< std::vector< std::pair< int32, BaseFloat > > > Posterior
Posterior is a typedef for storing acoustic-state (actually, transition-id) posteriors over an uttera...
Definition: posterior.h:42

kaldi::nnet2::ExampleToPdfPost
void ExampleToPdfPost(const TransitionModel &tmodel, const std::vector< int32 > &silence_phones, std::string criterion, bool drop_frames, bool one_silence_class, const DiscriminativeNnetExample &eg, Posterior *post)
Given a discriminative training example, this function works out posteriors at the pdf level (note: t...
Definition: nnet-example-functions.cc:838

kaldi::nnet2::SplitDiscriminativeExampleConfig::SplitDiscriminativeExampleConfig
SplitDiscriminativeExampleConfig()
Definition: nnet-example-functions.h:87

float

kaldi::nnet2::LatticeToDiscriminativeExample
bool LatticeToDiscriminativeExample(const std::vector< int32 > &alignment, const Matrix< BaseFloat > &feats, const CompactLattice &clat, BaseFloat weight, int32 left_context, int32 right_context, DiscriminativeNnetExample *eg)
Converts lattice to discriminative training example.
Definition: nnet-example-functions.cc:27

kaldi::nnet2::AppendDiscriminativeExamples
void AppendDiscriminativeExamples(const std::vector< const DiscriminativeNnetExample *> &input, DiscriminativeNnetExample *output)
Appends the given vector of examples (which must be non-empty) into a single output example (called b...
Definition: nnet-example-functions.cc:891

transition-model.h

kaldi::nnet2::SplitDiscriminativeExampleConfig::determinize
bool determinize
Definition: nnet-example-functions.h:70

kaldi::nnet2::SplitExampleStats::num_frames_orig
int64 num_frames_orig
Definition: nnet-example-functions.h:126

kaldi::OptionsItf
Definition: options-itf.h:26

kaldi::nnet2::SplitDiscriminativeExampleConfig::Register
void Register(OptionsItf *opts)
Definition: nnet-example-functions.h:92

kaldi::CompactLattice
fst::VectorFst< CompactLatticeArc > CompactLattice
Definition: kaldi-lattice.h:46

kaldi::nnet2::SplitExampleStats::num_lattices
int32 num_lattices
Definition: nnet-example-functions.h:122

kaldi::nnet2::SplitDiscriminativeExampleConfig::max_length
int32 max_length
Definition: nnet-example-functions.h:58

kaldi::nnet2::DiscriminativeNnetExample
This struct is used to store the information we need for discriminative training (MMI or MPE)...
Definition: nnet-example.h:136

kaldi::nnet2::SplitDiscriminativeExampleConfig::excise
bool excise
Definition: nnet-example-functions.h:85

nnet-example.h

kaldi::nnet2::SplitDiscriminativeExampleConfig::criterion
std::string criterion
Definition: nnet-example-functions.h:66

fst::Print
void Print(const Fst< Arc > &fst, std::string message)
Definition: fstext-utils-test.cc:362

kaldi::nnet2::SplitDiscriminativeExampleConfig::test
bool test
Definition: nnet-example-functions.h:74

kaldi::nnet2::SolvePackingProblem
void SolvePackingProblem(BaseFloat max_cost, const std::vector< BaseFloat > &costs, std::vector< std::vector< size_t > > *groups)
This function solves the "packing problem" using the "first fit" algorithm.
Definition: nnet-example-functions.cc:867

kaldi::nnet2::SplitDiscriminativeExampleConfig
Config structure for SplitExample, for splitting discriminative training examples.
Definition: nnet-example-functions.h:51