doc/online2-wav-dump-features_8cc_source.html

 // online2bin/online2-wav-dump-features.cc

 // Copyright 2014  Johns Hopkins University (author: Daniel Povey)

 // See ../../COPYING for clarification regarding multiple authors
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
 // You may obtain a copy of the License at
 //
 //  http://www.apache.org/licenses/LICENSE-2.0
 //
 // THIS CODE IS PROVIDED *AS IS* BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 // KIND, EITHER EXPRESS OR IMPLIED, INCLUDING WITHOUT LIMITATION ANY IMPLIED
 // WARRANTIES OR CONDITIONS OF TITLE, FITNESS FOR A PARTICULAR PURPOSE,
 // MERCHANTABLITY OR NON-INFRINGEMENT.
 // See the Apache 2 License for the specific language governing permissions and
 // limitations under the License.

 #include "feat/wave-reader.h"
 #include "online2/online-nnet2-decoding.h"
 #include "online2/online-nnet2-feature-pipeline.h"
 #include "online2/onlinebin-util.h"
 #include "online2/online-timing.h"
 #include "online2/online-endpoint.h"
 #include "fstext/fstext-lib.h"
 #include "lat/lattice-functions.h"


 int main(int argc, char *argv[]) {
   try {
     using namespace kaldi;
     using namespace fst;

     typedef kaldi::int32 int32;
     typedef kaldi::int64 int64;

     const char *usage =
         "Reads in wav file(s) and processes them as in online2-wav-nnet2-latgen-faster,\n"
         "but instead of decoding, dumps the features.  Most of the parameters\n"
         "are set via configuration variables.\n"
         "\n"
         "Usage: online2-wav-dump-features [options] <spk2utt-rspecifier> <wav-rspecifier> <feature-wspecifier>\n"
         "The spk2utt-rspecifier can just be <utterance-id> <utterance-id> if\n"
         "you want to generate features utterance by utterance.\n"
         "Alternate usage: online2-wav-dump-features [options] --print-ivector-dim=true\n"
         "See steps/online/nnet2/{dump_nnet_activations,get_egs.sh} for examples.\n";

     ParseOptions po(usage);

     // feature_config includes configuration for the iVector adaptation,
     // as well as the basic features.
     OnlineNnet2FeaturePipelineConfig feature_config;
     BaseFloat chunk_length_secs = 0.05;
     bool print_ivector_dim = false;

     po.Register("chunk-length", &chunk_length_secs,
                 "Length of chunk size in seconds, that we process.");
     po.Register("print-ivector-dim", &print_ivector_dim,
                 "If true, print iVector dimension (possibly zero) and exit.  This "
                 "version requires no arguments.");

     feature_config.Register(&po);

     po.Read(argc, argv);

     if (!print_ivector_dim && po.NumArgs() != 3) {
       po.PrintUsage();
       return 1;
     }

     OnlineNnet2FeaturePipelineInfo feature_info(feature_config);

     if (print_ivector_dim) {
       std::cout << feature_info.IvectorDim() << std::endl;
       exit(0);
     }

     std::string spk2utt_rspecifier = po.GetArg(1),
         wav_rspecifier = po.GetArg(2),
         feats_wspecifier = po.GetArg(3);


     int32 num_done = 0, num_err = 0;
     int64 num_frames_tot = 0;

     SequentialTokenVectorReader spk2utt_reader(spk2utt_rspecifier);
     RandomAccessTableReader<WaveHolder> wav_reader(wav_rspecifier);
     BaseFloatMatrixWriter feats_writer(feats_wspecifier);

     for (; !spk2utt_reader.Done(); spk2utt_reader.Next()) {
       std::string spk = spk2utt_reader.Key();
       const std::vector<std::string> &uttlist = spk2utt_reader.Value();
       OnlineIvectorExtractorAdaptationState adaptation_state(
           feature_info.ivector_extractor_info);
       for (size_t i = 0; i < uttlist.size(); i++) {
         std::string utt = uttlist[i];
         if (!wav_reader.HasKey(utt)) {
           KALDI_WARN << "Did not find audio for utterance " << utt;
           num_err++;
           continue;
         }
         const WaveData &wave_data = wav_reader.Value(utt);
         // get the data for channel zero (if the signal is not mono, we only
         // take the first channel).
         SubVector<BaseFloat> data(wave_data.Data(), 0);

         OnlineNnet2FeaturePipeline feature_pipeline(feature_info);
         feature_pipeline.SetAdaptationState(adaptation_state);

         std::vector<Vector<BaseFloat> *> feature_data;

         // We retrieve data from the feature pipeline while adding the wav data bit
         // by bit...  for features like pitch features, this may make a
         // difference to what we get, and we want to make sure that the data we
         // get it exactly compatible with online decoding.

         BaseFloat samp_freq = wave_data.SampFreq();
         int32 chunk_length = int32(samp_freq * chunk_length_secs);
         if (chunk_length == 0) chunk_length = 1;

         int32 samp_offset = 0;
         while (samp_offset < data.Dim()) {
           int32 samp_remaining = data.Dim() - samp_offset;
           int32 num_samp = chunk_length < samp_remaining ? chunk_length
                                                          : samp_remaining;

           SubVector<BaseFloat> wave_part(data, samp_offset, num_samp);
           feature_pipeline.AcceptWaveform(samp_freq, wave_part);
           samp_offset += num_samp;
           if (samp_offset == data.Dim())  // no more input. flush out last frames
             feature_pipeline.InputFinished();

           while (static_cast<int32>(feature_data.size()) <
                  feature_pipeline.NumFramesReady()) {
             int32 t = static_cast<int32>(feature_data.size());
             feature_data.push_back(new Vector<BaseFloat>(feature_pipeline.Dim(),
                                                          kUndefined));
             feature_pipeline.GetFrame(t, feature_data.back());
           }
         }
         int32 T = static_cast<int32>(feature_data.size());
         if (T == 0) {
           KALDI_WARN << "Got no frames of data for utterance " << utt;
           num_err++;
           continue;
         }
         Matrix<BaseFloat> feats(T, feature_pipeline.Dim());
         for (int32 t = 0; t < T; t++) {
           feats.Row(t).CopyFromVec(*(feature_data[t]));
           delete feature_data[t];
         }
         num_frames_tot += T;
         feats_writer.Write(utt, feats);
         feature_pipeline.GetAdaptationState(&adaptation_state);
         num_done++;
       }
     }
     KALDI_LOG << "Processed " << num_done << " utterances, "
               << num_err << " with errors; " << num_frames_tot
               << " frames in total.";
     return (num_done != 0 ? 0 : 1);
   } catch(const std::exception& e) {
     std::cerr << e.what();
     return -1;
   }
 } // main()
fstext-lib.h

kaldi
This code computes Goodness of Pronunciation (GOP) and extracts phone-level pronunciation feature for...
Definition: chain.dox:20

kaldi::kUndefined
Definition: matrix-common.h:39

kaldi::OnlineNnet2FeaturePipelineInfo::IvectorDim
int32 IvectorDim()
Definition: online-nnet2-feature-pipeline.h:179

kaldi::OnlineNnet2FeaturePipelineConfig
This configuration class is to set up OnlineNnet2FeaturePipelineInfo, which in turn is the configurat...
Definition: online-nnet2-feature-pipeline.h:69

fst
For an extended explanation of the framework of which grammar-fsts are a part, please see Support for...
Definition: graph.dox:21

kaldi::ParseOptions::PrintUsage
void PrintUsage(bool print_command_line=false)
Prints the usage documentation [provided in the constructor].
Definition: parse-options.cc:393

kaldi::SequentialTableReader::Key
std::string Key()
Definition: kaldi-table-inl.h:918

online-nnet2-decoding.h

kaldi::OnlineIvectorExtractorAdaptationState
This class stores the adaptation state from the online iVector extractor, which can help you to initi...
Definition: online-ivector-feature.h:211

kaldi::TableWriter
A templated class for writing objects to an archive or script file; see The Table concept...
Definition: kaldi-table.h:368

kaldi::int32
kaldi::int32 int32
Definition: online-tcp-source.cc:27

kaldi::Matrix< BaseFloat >

kaldi::WaveData::SampFreq
BaseFloat SampFreq() const
Definition: wave-reader.h:126

wave-reader.h

kaldi::WaveData::Data
const Matrix< BaseFloat > & Data() const
Definition: wave-reader.h:124

online-nnet2-feature-pipeline.h
This file contains a different version of the feature-extraction pipeline in online-feature-pipeline...

kaldi::TableWriter::Write
void Write(const std::string &key, const T &value) const
Definition: kaldi-table-inl.h:1511

kaldi::OnlineNnet2FeaturePipelineInfo
This class is responsible for storing configuration variables, objects and options for OnlineNnet2Fea...
Definition: online-nnet2-feature-pipeline.h:138

kaldi::ParseOptions::Register
void Register(const std::string &name, bool *ptr, const std::string &doc)
Definition: parse-options.cc:56

lattice-functions.h

kaldi::RandomAccessTableReader
Allows random access to a collection of objects in an archive or script file; see The Table concept...
Definition: kaldi-table.h:233

kaldi::BaseFloat
float BaseFloat
Definition: kaldi-types.h:29

kaldi::ParseOptions
The class ParseOptions is for parsing command-line options; see Parsing command-line options for more...
Definition: parse-options.h:36

kaldi::MatrixBase::Row
const SubVector< Real > Row(MatrixIndexT i) const
Return specific row of matrix [const].
Definition: kaldi-matrix.h:188

kaldi::RandomAccessTableReader::Value
const T & Value(const std::string &key)
Definition: kaldi-table-inl.h:2561

kaldi::SequentialTableReader
A templated class for reading objects sequentially from an archive or script file; see The Table conc...
Definition: kaldi-table.h:287

kaldi::ParseOptions::Read
int Read(int argc, const char *const *argv)
Parses the command line options and fills the ParseOptions-registered variables.
Definition: parse-options.cc:311

kaldi::SequentialTableReader::Done
bool Done()
Definition: kaldi-table-inl.h:948

kaldi::OnlineNnet2FeaturePipelineConfig::Register
void Register(OptionsItf *opts)
Definition: online-nnet2-feature-pipeline.h:101

KALDI_WARN
#define KALDI_WARN
Definition: kaldi-error.h:150

kaldi::ParseOptions::GetArg
std::string GetArg(int param) const
Returns one of the positional parameters; 1-based indexing for argc/argv compatibility.
Definition: parse-options.cc:202

kaldi::SequentialTableReader::Next
void Next()
Definition: kaldi-table-inl.h:942

online-timing.h

kaldi::VectorBase::Dim
MatrixIndexT Dim() const
Returns the dimension of the vector.
Definition: kaldi-vector.h:64

kaldi::RandomAccessTableReader::HasKey
bool HasKey(const std::string &key)
Definition: kaldi-table-inl.h:2551

kaldi::WaveData
This class&#39;s purpose is to read in Wave files.
Definition: wave-reader.h:106

rnnlm::i
int i
Definition: mikolov-rnnlm-lib.cc:66

kaldi::ParseOptions::NumArgs
int NumArgs() const
Number of positional parameters (c.f. argc-1).
Definition: parse-options.cc:198

kaldi::Vector
A class representing a vector.
Definition: kaldi-vector.h:406

kaldi::SequentialTableReader::Value
T & Value()
Definition: kaldi-table-inl.h:934

kaldi::OnlineNnet2FeaturePipeline
OnlineNnet2FeaturePipeline is a class that&#39;s responsible for putting together the various parts of th...
Definition: online-nnet2-feature-pipeline.h:198

onlinebin-util.h

online-endpoint.h

KALDI_LOG
#define KALDI_LOG
Definition: kaldi-error.h:153

main
int main(int argc, char *argv[])
Definition: online2-wav-dump-features.cc:30

kaldi::SubVector
Represents a non-allocating general vector which can be defined as a sub-vector of higher-level vecto...
Definition: kaldi-vector.h:501

kaldi::OnlineNnet2FeaturePipelineInfo::ivector_extractor_info
OnlineIvectorExtractionInfo ivector_extractor_info
Definition: online-nnet2-feature-pipeline.h:170