doc/nnet3-discriminative-get-egs_8cc_source.html

 // nnet3bin/nnet3-discriminative-get-egs.cc

 // Copyright      2015  Johns Hopkins University (author:  Daniel Povey)
 //           2014-2015  Vimal Manohar

 // See ../../COPYING for clarification regarding multiple authors
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
 // You may obtain a copy of the License at
 //
 //  http://www.apache.org/licenses/LICENSE-2.0
 //
 // THIS CODE IS PROVIDED *AS IS* BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 // KIND, EITHER EXPRESS OR IMPLIED, INCLUDING WITHOUT LIMITATION ANY IMPLIED
 // WARRANTIES OR CONDITIONS OF TITLE, FITNESS FOR A PARTICULAR PURPOSE,
 // MERCHANTABLITY OR NON-INFRINGEMENT.
 // See the Apache 2 License for the specific language governing permissions and
 // limitations under the License.

 #include <sstream>

 #include "base/kaldi-common.h"
 #include "util/common-utils.h"
 #include "hmm/transition-model.h"
 #include "hmm/posterior.h"
 #include "nnet3/nnet-discriminative-example.h"
 #include "nnet3/discriminative-supervision.h"
 #include "nnet3/nnet-example-utils.h"
 #include "chain/chain-supervision.h"

 namespace kaldi {
 namespace nnet3 {

 // This function does all the processing for one utterance, and outputs the
 // examples to 'example_writer'.
 // returns true if we got as far as calling GetChunksForUtterance()
 // [in which case stats will be accumulated by class UtteranceSplitter]
 static bool ProcessFile(const discriminative::SplitDiscriminativeSupervisionOptions &config,
                         const TransitionModel &tmodel,
                         const MatrixBase<BaseFloat> &feats,
                         const MatrixBase<BaseFloat> *ivector_feats,
                         int32 ivector_period,
                         const discriminative::DiscriminativeSupervision &supervision,
                         const std::string &utt_id,
                         bool compress,
                         UtteranceSplitter *utt_splitter,
                         NnetDiscriminativeExampleWriter *example_writer) {
   KALDI_ASSERT(supervision.num_sequences == 1);
   int32 num_input_frames = feats.NumRows(),
       num_output_frames = supervision.frames_per_sequence;

   if (!utt_splitter->LengthsMatch(utt_id, num_input_frames, num_output_frames))
     return false;  // LengthsMatch() will have printed a warning.

   std::vector<ChunkTimeInfo> chunks;

   utt_splitter->GetChunksForUtterance(num_input_frames, &chunks);

   if (chunks.empty()) {
     KALDI_WARN << "Not producing egs for utterance " << utt_id
                << " because it is too short: "
                << num_input_frames << " frames.";
   }

   int32 frame_subsampling_factor = utt_splitter->Config().frame_subsampling_factor;

   discriminative::DiscriminativeSupervisionSplitter splitter(config, tmodel,
                                                              supervision);

   for (size_t c = 0; c < chunks.size(); c++) {
     ChunkTimeInfo &chunk = chunks[c];

     NnetDiscriminativeExample nnet_discriminative_eg;
     nnet_discriminative_eg.outputs.resize(1);

     int32 start_frame_subsampled = chunk.first_frame / frame_subsampling_factor,
         num_frames_subsampled = chunk.num_frames / frame_subsampling_factor;

     discriminative::DiscriminativeSupervision supervision_part;

     splitter.GetFrameRange(start_frame_subsampled,
                            num_frames_subsampled,
                            (c == 0 ? false : true),
                            &supervision_part);

     SubVector<BaseFloat> output_weights(
         &(chunk.output_weights[0]),
         static_cast<int32>(chunk.output_weights.size()));

     int32 first_frame = 0;  // we shift the time-indexes of all these parts so
                             // that the supervised part starts from frame 0.
     NnetDiscriminativeSupervision nnet_supervision("output", supervision_part,
                                                    output_weights,
                                                    first_frame,
                                                    frame_subsampling_factor);
     nnet_discriminative_eg.outputs[0].Swap(&nnet_supervision);

     nnet_discriminative_eg.inputs.resize(ivector_feats != NULL ? 2 : 1);


     int32 tot_input_frames = chunk.left_context + chunk.num_frames +
         chunk.right_context;

     Matrix<BaseFloat> input_frames(tot_input_frames, feats.NumCols(),
                                    kUndefined);

     int32 start_frame = chunk.first_frame - chunk.left_context;
     for (int32 t = start_frame; t < start_frame + tot_input_frames; t++) {
       int32 t2 = t;
       if (t2 < 0) t2 = 0;
       if (t2 >= num_input_frames) t2 = num_input_frames - 1;
       int32 j = t - start_frame;
       SubVector<BaseFloat> src(feats, t2),
           dest(input_frames, j);
       dest.CopyFromVec(src);
     }

     NnetIo input_io("input", -chunk.left_context, input_frames);
     nnet_discriminative_eg.inputs[0].Swap(&input_io);

     if (ivector_feats != NULL) {
       // if applicable, add the iVector feature.
       // choose iVector from a random frame in the chunk
       int32 ivector_frame = RandInt(start_frame,
                                     start_frame + num_input_frames - 1),
           ivector_frame_subsampled = ivector_frame / ivector_period;
       if (ivector_frame_subsampled < 0)
         ivector_frame_subsampled = 0;
       if (ivector_frame_subsampled >= ivector_feats->NumRows())
         ivector_frame_subsampled = ivector_feats->NumRows() - 1;
       Matrix<BaseFloat> ivector(1, ivector_feats->NumCols());
       ivector.Row(0).CopyFromVec(ivector_feats->Row(ivector_frame_subsampled));
       NnetIo ivector_io("ivector", 0, ivector);
       nnet_discriminative_eg.inputs[1].Swap(&ivector_io);
     }

     if (compress)
       nnet_discriminative_eg.Compress();

     std::ostringstream os;
     os << utt_id << "-" << chunk.first_frame;

     std::string key = os.str(); // key is <utt_id>-<frame_id>

     example_writer->Write(key, nnet_discriminative_eg);
   }
   return true;
 }


 } // namespace nnet3
 } // namespace kaldi

 int main(int argc, char *argv[]) {
   try {
     using namespace kaldi;
     using namespace kaldi::nnet3;
     typedef kaldi::int32 int32;
     typedef kaldi::int64 int64;

     const char *usage =
         "Get frame-by-frame examples of data for nnet3+sequence neural network\n"
         "training.  This involves breaking up utterances into pieces of sizes\n"
         "determined by the --num-frames option.\n"
         "\n"
         "Usage:  nnet3-discriminative-get-egs [options] <model> <features-rspecifier> "
         "<denominator-lattice-rspecifier> <numerator-alignment-rspecifier> <egs-wspecifier>\n"
         "\n"
         "An example [where $feats expands to the actual features]:\n"
         "  nnet3-discriminative-get-egs --left-context=25 --right-context=9 --num-frames=150,100,90 \\\n"
         "  \"$feats\" \"ark,s,cs:gunzip -c lat.1.gz\" scp:ali.scp ark:degs.1.ark\n";

     bool compress = true;
     int32 length_tolerance = 100, online_ivector_period = 1;

     std::string online_ivector_rspecifier;

     ExampleGenerationConfig eg_config;  // controls num-frames,
                                         // left/right-context, etc.
     discriminative::SplitDiscriminativeSupervisionOptions splitter_config;

     ParseOptions po(usage);

     eg_config.Register(&po);
     po.Register("compress", &compress, "If true, write egs in "
                 "compressed format (recommended)");
     po.Register("ivectors", &online_ivector_rspecifier, "Alias for --online-ivectors "
                 "option, for back compatibility");
     po.Register("online-ivectors", &online_ivector_rspecifier, "Rspecifier of ivector "
                 "features, as a matrix.");
     po.Register("online-ivector-period", &online_ivector_period, "Number of frames "
                 "between iVectors in matrices supplied to the --online-ivectors "
                 "option");
     po.Register("length-tolerance", &length_tolerance, "Tolerance for "
                 "difference in num-frames between feat and ivector matrices");

     splitter_config.Register(&po);

     po.Read(argc, argv);

     if (po.NumArgs() != 5) {
       po.PrintUsage();
       exit(1);
     }

     eg_config.ComputeDerived();
     UtteranceSplitter utt_splitter(eg_config);

     std::string model_wxfilename = po.GetArg(1),
         feature_rspecifier = po.GetArg(2),
         den_lat_rspecifier = po.GetArg(3),
         num_ali_rspecifier = po.GetArg(4),
         examples_wspecifier = po.GetArg(5);


     TransitionModel tmodel;
     {
       bool binary;
       Input ki(model_wxfilename, &binary);
       tmodel.Read(ki.Stream(), binary);
     }

     SequentialBaseFloatMatrixReader feat_reader(feature_rspecifier);
     RandomAccessLatticeReader den_lat_reader(den_lat_rspecifier);
     RandomAccessInt32VectorReader ali_reader(num_ali_rspecifier);
     NnetDiscriminativeExampleWriter example_writer(examples_wspecifier);
     RandomAccessBaseFloatMatrixReader online_ivector_reader(
         online_ivector_rspecifier);

     int32 num_err = 0;

     for (; !feat_reader.Done(); feat_reader.Next()) {
       std::string key = feat_reader.Key();
       const Matrix<BaseFloat> &feats = feat_reader.Value();
       if (!den_lat_reader.HasKey(key)) {
         KALDI_WARN << "No denominator lattice for key " << key;
         num_err++;
       } else if (!ali_reader.HasKey(key)) {
         KALDI_WARN << "No numerator alignment for key " << key;
         num_err++;
       } else {
         discriminative::DiscriminativeSupervision supervision;
         if (!supervision.Initialize(ali_reader.Value(key),
                                     den_lat_reader.Value(key),
                                     1.0)) {
           KALDI_WARN << "Failed to convert lattice to supervision "
                      << "for utterance " << key;
           num_err++;
           continue;
         }

         const Matrix<BaseFloat> *online_ivector_feats = NULL;
         if (!online_ivector_rspecifier.empty()) {
           if (!online_ivector_reader.HasKey(key)) {
             KALDI_WARN << "No iVectors for utterance " << key;
             num_err++;
             continue;
           } else {
             // this address will be valid until we call HasKey() or Value()
             // again.
             online_ivector_feats = &(online_ivector_reader.Value(key));
           }
         }
         if (online_ivector_feats != NULL &&
             (abs(feats.NumRows() - (online_ivector_feats->NumRows() *
                                     online_ivector_period)) > length_tolerance
              || online_ivector_feats->NumRows() == 0)) {
           KALDI_WARN << "Length difference between feats " << feats.NumRows()
                      << " and iVectors " << online_ivector_feats->NumRows()
                      << "exceeds tolerance " << length_tolerance;
           num_err++;
           continue;
         }
         if (!ProcessFile(splitter_config, tmodel,
                          feats, online_ivector_feats, online_ivector_period,
                          supervision, key, compress,
                          &utt_splitter, &example_writer))
           num_err++;
       }
     }
     if (num_err > 0)
       KALDI_WARN << num_err << " utterances had errors and could "
           "not be processed.";
     // utt_splitter prints diagnostics.
     return utt_splitter.ExitStatus();
   } catch(const std::exception &e) {
     std::cerr << e.what() << '\n';
     return -1;
   }
 }
kaldi
This code computes Goodness of Pronunciation (GOP) and extracts phone-level pronunciation feature for...
Definition: chain.dox:20

kaldi::nnet3::NnetIo
Definition: nnet-example.h:33

kaldi::kUndefined
Definition: matrix-common.h:39

kaldi::discriminative::DiscriminativeSupervisionSplitter::GetFrameRange
void GetFrameRange(int32 begin_frame, int32 frames_per_sequence, bool normalize, DiscriminativeSupervision *supervision) const
Definition: discriminative-supervision.cc:206

rnnlm::j
int j
Definition: mikolov-rnnlm-lib.cc:66

kaldi::Input
Definition: kaldi-io.h:190

kaldi::nnet3::UtteranceSplitter::LengthsMatch
bool LengthsMatch(const std::string &utt, int32 utterance_length, int32 supervision_length, int32 length_tolerance=0) const
Definition: nnet-example-utils.cc:553

kaldi::discriminative::SplitDiscriminativeSupervisionOptions::Register
void Register(OptionsItf *opts)
Definition: discriminative-supervision.h:47

kaldi::nnet3::ExampleGenerationConfig::frame_subsampling_factor
int32 frame_subsampling_factor
Definition: nnet-example-utils.h:88

kaldi::MatrixBase::NumCols
MatrixIndexT NumCols() const
Returns number of columns (or zero for empty matrix).
Definition: kaldi-matrix.h:67

kaldi::MatrixBase
Base class which provides matrix operations not involving resizing or allocation. ...
Definition: kaldi-matrix.h:49

kaldi::ParseOptions::PrintUsage
void PrintUsage(bool print_command_line=false)
Prints the usage documentation [provided in the constructor].
Definition: parse-options.cc:393

kaldi::SequentialTableReader::Key
std::string Key()
Definition: kaldi-table-inl.h:918

main
int main(int argc, char *argv[])
Definition: nnet3-discriminative-get-egs.cc:155

kaldi::nnet3::ChunkTimeInfo::num_frames
int32 num_frames
Definition: nnet-example-utils.h:155

kaldi::nnet3::UtteranceSplitter::ExitStatus
int32 ExitStatus()
Definition: nnet-example-utils.h:198

kaldi::nnet3::UtteranceSplitter
Definition: nnet-example-utils.h:169

kaldi::nnet3::ExampleGenerationConfig
Definition: nnet-example-utils.h:82

kaldi::TableWriter
A templated class for writing objects to an archive or script file; see The Table concept...
Definition: kaldi-table.h:368

kaldi::int32
kaldi::int32 int32
Definition: online-tcp-source.cc:27

common-utils.h

kaldi::Matrix< BaseFloat >

kaldi::discriminative::DiscriminativeSupervisionSplitter
Definition: discriminative-supervision.h:140

posterior.h

kaldi::nnet3::ChunkTimeInfo::left_context
int32 left_context
Definition: nnet-example-utils.h:156

discriminative-supervision.h

kaldi::TableWriter::Write
void Write(const std::string &key, const T &value) const
Definition: kaldi-table-inl.h:1511

kaldi::nnet3
Definition: dnn3_code_compilation.dox:22

kaldi::ParseOptions::Register
void Register(const std::string &name, bool *ptr, const std::string &doc)
Definition: parse-options.cc:56

kaldi::TransitionModel
Definition: transition-model.h:123

kaldi::RandomAccessTableReader
Allows random access to a collection of objects in an archive or script file; see The Table concept...
Definition: kaldi-table.h:233

kaldi::VectorBase::CopyFromVec
void CopyFromVec(const VectorBase< Real > &v)
Copy data from another vector (must match own size).
Definition: kaldi-vector.cc:228

kaldi::discriminative::SplitDiscriminativeSupervisionOptions
Definition: discriminative-supervision.h:33

kaldi::Input::Stream
std::istream & Stream()
Definition: kaldi-io.cc:826

kaldi::ParseOptions
The class ParseOptions is for parsing command-line options; see Parsing command-line options for more...
Definition: parse-options.h:36

kaldi::MatrixBase::Row
const SubVector< Real > Row(MatrixIndexT i) const
Return specific row of matrix [const].
Definition: kaldi-matrix.h:188

kaldi::RandomAccessTableReader::Value
const T & Value(const std::string &key)
Definition: kaldi-table-inl.h:2561

transition-model.h

kaldi::nnet3::NnetDiscriminativeExample::Compress
void Compress()
Definition: nnet-discriminative-example.cc:175

kaldi::nnet3::ProcessFile
static bool ProcessFile(const discriminative::SplitDiscriminativeSupervisionOptions &config, const TransitionModel &tmodel, const MatrixBase< BaseFloat > &feats, const MatrixBase< BaseFloat > *ivector_feats, int32 ivector_period, const discriminative::DiscriminativeSupervision &supervision, const std::string &utt_id, bool compress, UtteranceSplitter *utt_splitter, NnetDiscriminativeExampleWriter *example_writer)
Definition: nnet3-discriminative-get-egs.cc:39

kaldi::TransitionModel::Read
void Read(std::istream &is, bool binary)
Definition: transition-model.cc:394

kaldi::discriminative::DiscriminativeSupervision::num_sequences
int32 num_sequences
Definition: discriminative-supervision.h:85

kaldi::SequentialTableReader
A templated class for reading objects sequentially from an archive or script file; see The Table conc...
Definition: kaldi-table.h:287

nnet-example-utils.h

kaldi::nnet3::ExampleGenerationConfig::Register
void Register(OptionsItf *po)
Definition: nnet-example-utils.h:110

kaldi::ParseOptions::Read
int Read(int argc, const char *const *argv)
Parses the command line options and fills the ParseOptions-registered variables.
Definition: parse-options.cc:311

kaldi::SequentialTableReader::Done
bool Done()
Definition: kaldi-table-inl.h:948

kaldi::discriminative::DiscriminativeSupervision::frames_per_sequence
int32 frames_per_sequence
Definition: discriminative-supervision.h:91

kaldi::ParseOptions::GetArg
std::string GetArg(int param) const
Returns one of the positional parameters; 1-based indexing for argc/argv compatibility.
Definition: parse-options.cc:202

KALDI_WARN
#define KALDI_WARN
Definition: kaldi-error.h:150

kaldi::SequentialTableReader::Next
void Next()
Definition: kaldi-table-inl.h:942

kaldi::RandomAccessTableReader::HasKey
bool HasKey(const std::string &key)
Definition: kaldi-table-inl.h:2551

kaldi::discriminative::DiscriminativeSupervision
Definition: discriminative-supervision.h:75

kaldi::nnet3::UtteranceSplitter::Config
const ExampleGenerationConfig & Config() const
Definition: nnet-example-utils.h:175

kaldi::ParseOptions::NumArgs
int NumArgs() const
Number of positional parameters (c.f. argc-1).
Definition: parse-options.cc:198

nnet-discriminative-example.h

kaldi::SequentialTableReader::Value
T & Value()
Definition: kaldi-table-inl.h:934

KALDI_ASSERT
#define KALDI_ASSERT(cond)
Definition: kaldi-error.h:185

kaldi::MatrixBase::NumRows
MatrixIndexT NumRows() const
Returns number of rows (or zero for empty matrix).
Definition: kaldi-matrix.h:64

kaldi::nnet3::NnetDiscriminativeExample::inputs
std::vector< NnetIo > inputs
&#39;inputs&#39; contains the input to the network– normally just it has just one element called "input"...
Definition: nnet-discriminative-example.h:108

kaldi::discriminative::DiscriminativeSupervision::Initialize
bool Initialize(const std::vector< int32 > &alignment, const Lattice &lat, BaseFloat weight)
Definition: discriminative-supervision.cc:105

kaldi::nnet3::ChunkTimeInfo::first_frame
int32 first_frame
Definition: nnet-example-utils.h:154

kaldi::nnet3::NnetDiscriminativeExample::outputs
std::vector< NnetDiscriminativeSupervision > outputs
&#39;outputs&#39; contains the sequence output supervision.
Definition: nnet-discriminative-example.h:112

kaldi::nnet3::UtteranceSplitter::GetChunksForUtterance
void GetChunksForUtterance(int32 utterance_length, std::vector< ChunkTimeInfo > *chunk_info)
Definition: nnet-example-utils.cc:822

kaldi::nnet3::ChunkTimeInfo
struct ChunkTimeInfo is used by class UtteranceSplitter to output information about how we split an u...
Definition: nnet-example-utils.h:153

kaldi::nnet3::ChunkTimeInfo::right_context
int32 right_context
Definition: nnet-example-utils.h:157

kaldi-common.h

kaldi::nnet3::NnetDiscriminativeSupervision
Definition: nnet-discriminative-example.h:42

kaldi::nnet3::ChunkTimeInfo::output_weights
std::vector< BaseFloat > output_weights
Definition: nnet-example-utils.h:165

kaldi::SubVector
Represents a non-allocating general vector which can be defined as a sub-vector of higher-level vecto...
Definition: kaldi-vector.h:501

kaldi::nnet3::NnetDiscriminativeExample
NnetDiscriminativeExample is like NnetExample, but specialized for sequence training.
Definition: nnet-discriminative-example.h:103

kaldi::RandInt
int32 RandInt(int32 min_val, int32 max_val, struct RandomState *state)
Definition: kaldi-math.cc:95

kaldi::nnet3::ExampleGenerationConfig::ComputeDerived
void ComputeDerived()
This function decodes &#39;num_frames_str&#39; into &#39;num_frames&#39;, and ensures that the members of &#39;num_frames...
Definition: nnet-example-utils.cc:302