d5/d60/utils_8h_source.html

 /* FEAT

 copyright 2017 William La Cava

 license: GNU/GPL v3

 */


 #ifndef UTILS_H

 #define UTILS_H


 #include <Eigen/Dense>

 #include <vector>

 #include <fstream>

 #include <sstream>

 #include <chrono>

 #include <ostream>

 #include <map>

 #include "../init.h"

 #include "error.h"

 #include <shogun/lib/common.h>

 //#include "data.h"


 using namespace Eigen;


 namespace FT{

 namespace Util{


 extern string PBSTR;


 extern int PBWIDTH;


 void clean(ArrayXf& x);

 void clean(VectorXf& x);


 std::string ltrim(std::string str, const std::string& chars = "\t\n\v\f\r ");


 std::string rtrim(std::string str, const std::string& chars = "\t\n\v\f\r ");


 std::string trim(std::string str, const std::string& chars = "\t\n\v\f\r ");


 template<typename T>

 bool in(const vector<T> v, const T& i)

 {

     return std::find(v.begin(), v.end(), i) != v.end();

 }


 float median(const ArrayXf& v);


 float variance(const ArrayXf& v, float mean);


 float variance(const ArrayXf& v);


 float skew(const ArrayXf& v);


 float kurtosis(const ArrayXf& v);


 float covariance(const ArrayXf& x, const ArrayXf& y);


 float slope(const ArrayXf& x, const ArrayXf& y);


 float pearson_correlation(const ArrayXf& x, const ArrayXf& y);


 float mad(const ArrayXf& x);


 template <typename T>

 vector<size_t> argsort(const vector<T> &v, bool ascending=true)

 {

     // initialize original index locations

     vector<size_t> idx(v.size());

     std::iota(idx.begin(), idx.end(), 0);


     // sort indexes based on comparing values in v

     if (ascending)

     {

         sort(idx.begin(), idx.end(),

            [&v](size_t i1, size_t i2) {return v[i1] < v[i2];});

     }

     else

     {

         sort(idx.begin(), idx.end(),

            [&v](size_t i1, size_t i2) {return v[i1] > v[i2];});

     }


     return idx;

 }


 class Timer

 {

     typedef std::chrono::high_resolution_clock high_resolution_clock;


     typedef std::chrono::seconds seconds;


     public:

         explicit Timer(bool run = false);


         void Reset();


         std::chrono::duration<float> Elapsed() const;


         template <typename T, typename Traits>

         friend std::basic_ostream<T, Traits>& operator<<(

                 std::basic_ostream<T, Traits>& out, const Timer& timer)

         {

             return out << timer.Elapsed().count();

         }


         private:

             high_resolution_clock::time_point _start;


 };


 template <typename T>

 vector<T> softmax(const vector<T>& w)

 {

     int x;

     T sum = 0;

     vector<T> w_new;


     for(x = 0; x < w.size(); ++x)

         sum += exp(w[x]);


     for(x = 0; x < w.size(); ++x)

         w_new.push_back(exp(w[x])/sum);


     return w_new;

 }


 struct Normalizer

 {

     Normalizer(bool sa=true, bool rm_offset=true)

         : scale_all(sa)

         , remove_offset(rm_offset)

     {};


     vector<float> scale;

     vector<float> offset;

     vector<char> dtypes;

     bool scale_all;

     bool remove_offset;


     template <typename T>

     void fit(const MatrixBase<T>& X, const vector<char>& dt)

     {

         scale.clear();

         offset.clear();

         dtypes = dt;

         for (unsigned int i=0; i<X.rows(); ++i)

         {

              /* tmp = X.row(i); */

             // mean center

             if (remove_offset)

             {

                 /* tmp = tmp.array() - tmp.mean(); */

                 offset.push_back(float(X.row(i).mean()));

             }

             else

                 offset.push_back(0.0);

             /* VectorXf tmp; */

             // scale by the standard deviation

             scale.push_back(

                 std::sqrt(

                     (X.row(i).array() - offset.at(i))

                     .square()

                     .sum()/(X.row(i).size()-1)

                     )

             );

         }


     }

     template <typename T>

     void normalize(MatrixBase<T>& X) const

     {

         // normalize features

         for (unsigned int i=0; i<X.rows(); ++i)

         {

             if (std::isinf(scale.at(i)))

             {

                 /* X.row(i) = Matrix<T, Dynamic, 1>::Zero(X.row(i).size()); */

                 continue;

             }

             // scale, potentially skipping binary and categorical rows

             if (this->scale_all || dtypes.at(i)=='f')

             {

                 if (remove_offset)

                     X.row(i) = X.row(i).array() - offset.at(i);

                 if (scale.at(i) > NEAR_ZERO)

                     X.row(i) = X.row(i).array()/scale.at(i);

             }

         }

     }

     // y = B_norm*X_norm.

     //

     template <typename T>

     void adjust_weights(MatrixBase<T>& B) const

     {

         // Transform input, Bnorm, into B by dividing by scale.

         // normalize features

         for (unsigned int i=0; i<B.rows(); ++i)

         {

             if (std::isinf(scale.at(i)))

             {

                 continue;

             }

             // scale, potentially skipping binary and categorical rows

             if (this->scale_all || dtypes.at(i)=='f')

             {

                 if (scale.at(i) > NEAR_ZERO)

                     B.row(i) = B.row(i).array()/scale.at(i);

             }

         }

     }


     template<typename T>

     void adjust_weights(shogun::SGVector<T>& B) const

     {

         auto tmp_map = Map<Eigen::Matrix<T,Dynamic,1>>(B.data(), B.size());

         this->adjust_weights(tmp_map);

     }


     template<typename T>

     void adjust_weights(vector<T>& B) const

     {

         auto tmp_map = Map<Eigen::Matrix<T,Dynamic,1>>(B.data(), B.size());

         this->adjust_weights(tmp_map);

     }


     template <typename T>

     float adjust_offset(const MatrixBase<T>& Bn, float init_offset) const

     {

         // yn = Bn_0 + Bn_1 * xn_1 + ...

         //    = Bn_0 + Bn_1 * (x-offset)/scale) + ...

         //-> B_0  = Bn_0 - sum(Bn_i*offset_i/scale_i)

         /* ArrayXf Bn = B.cast <float> (); */

         float adjustment = 0;

         // normalize features

         for (unsigned int i=0; i<Bn.size(); ++i)

         {

             if (std::isinf(scale.at(i)))

             {

                 continue;

             }

             float b = Bn(i);

             // scale, potentially skipping binary and categorical rows

             if (this->scale_all || dtypes.at(i)=='f')

             {

                 if (scale.at(i) > NEAR_ZERO)

                     adjustment += b*offset.at(i)/scale.at(i);

             }

         }

         return init_offset - adjustment;

     }

     template <typename T>

     float adjust_offset(const vector<T>& Bn, float init_offset) const

     {

         auto w = Map<const Eigen::Matrix<T,Dynamic,1>>(Bn.data(), Bn.size());

         return this->adjust_offset(w, init_offset);


     }

     template <typename T>

     float adjust_offset(const shogun::SGVector<T>& Bn, float init_offset) const

     {

         auto w = Map<const Eigen::Matrix<T,Dynamic,1>>(Bn.data(), Bn.size());

         return this->adjust_offset(w, init_offset);


     }

     template <typename T>

     void invert(MatrixBase<T>& X) const

     {

         cout << "inverting X = " << X << endl;

         // normalize features

         for (unsigned int i=0; i<X.rows(); ++i)

         {

             if (std::isinf(scale.at(i)))

             {

                 /* X.row(i) = Matrix<T, Dynamic, 1>::Zero(X.row(i).size()); */

                 continue;

             }

             // scale, potentially skipping binary and categorical rows

             if (this->scale_all || dtypes.at(i)=='f')

             {

                 cout << "X.row(i) = X.row(i).array()*scale.at(i) : \n\t";

                 cout << " = " << X.row(i).array() << "*" << scale.at(i) << endl;

                 if (scale.at(i) > NEAR_ZERO)

                     X.row(i) = X.row(i).array()*scale.at(i);

                 cout << "X.row(i) = X.row(i).array() + offset.at(i) : \n\t";

                 cout << " = " << X.row(i).array() << " + " << offset.at(i) << endl;

                 X.row(i) = X.row(i).array() + offset.at(i);

             }

         }

     }

     template <typename T>

     void fit_normalize(MatrixBase<T>& X,

             const vector<char>& dtypes)

     {

         this->fit(X, dtypes);

         this->normalize(X);

     }

 };

 NLOHMANN_DEFINE_TYPE_NON_INTRUSIVE(Normalizer, scale, offset, dtypes, scale_all)


 ArrayXb isinf(const ArrayXf& x);


 ArrayXb isnan(const ArrayXf& x);


 vector<char> find_dtypes(const MatrixXf &X);


 template <typename T>

 vector<T> unique(vector<T> w)

 {

     std::sort(w.begin(),w.end());

     typename vector<T>::iterator it;

     it = std::unique(w.begin(),w.end());

     w.resize(std::distance(w.begin(), it));

     return w;

 }


 template <typename T>

 vector<T> unique(Matrix<T, -1, -1> w)

 {

     vector<T> wv( w.data(), w.data()+w.size());

     return unique(wv);

 }


 template <typename T>

 vector<T> unique(Matrix<T, -1, 1> w)

 {

     vector<T> wv( w.data(), w.data()+w.size());

     return unique(wv);

 }


 template <typename T>

 vector<T> unique(Array<T, -1, 1> w)

 {

     vector<T> wv( w.data(), w.data()+w.rows()*w.cols());

     return unique(wv);

 }


 float condition_number(const MatrixXf& X);


 MatrixXf corrcoef(const MatrixXf& X);


 // returns the mean of the pairwise correlations of a matrix.

 float mean_square_corrcoef(const MatrixXf& X);


 int argmiddle(vector<float>& v);


 struct Log_Stats

 {

     vector<int> generation;

     vector<float> time;

     vector<float> min_loss;

     vector<float> min_loss_v;

     vector<float> med_loss;

     vector<float> med_loss_v;

     vector<unsigned> med_size;

     vector<unsigned> med_complexity;

     vector<unsigned> med_num_params;

     vector<unsigned> med_dim;


     void update(int index,

                 float timer_count,

                 float bst_score,

                 float bst_score_v,

                 float md_score,

                 float md_loss_v,

                 unsigned md_size,

                 unsigned md_complexity,

                 unsigned md_num_params,

                 unsigned md_dim);

 };


 typedef struct Log_Stats Log_stats;


 NLOHMANN_DEFINE_TYPE_NON_INTRUSIVE(Log_Stats,

     generation,

     time,

     min_loss,

     min_loss_v,

     med_loss,

     med_loss_v,

     med_size,

     med_complexity,

     med_num_params,

     med_dim);


 template <typename T>

 std::string to_string(const T& value)

 {

     std::stringstream ss;

     ss << value;

     return ss.str();

 }


 template <typename T>

 std::string to_string(const T a_value, const int n)

 {

     std::ostringstream out;

     out.precision(n);

     out << std::fixed << a_value;

     return out.str();

 }


 std::string ravel(const vector<string>& v, string sep=",");


 } // Util


 } // FT

 #endif

FT::Util::Timer
class for timing things.
Definition: utils.h:104

FT::Util::Timer::operator<<
friend std::basic_ostream< T, Traits > & operator<<(std::basic_ostream< T, Traits > &out, const Timer &timer)
Definition: utils.h:117

FT::Util::Timer::Elapsed
std::chrono::duration< float > Elapsed() const
Definition: utils.cc:211

FT::Util::Timer::_start
high_resolution_clock::time_point _start
Definition: utils.h:124

FT::Util::Timer::high_resolution_clock
std::chrono::high_resolution_clock high_resolution_clock
Definition: utils.h:105

FT::Util::Timer::seconds
std::chrono::seconds seconds
Definition: utils.h:107

ArrayXb
Eigen::Array< bool, Eigen::Dynamic, 1 > ArrayXb
Definition: data.h:21

error.h

Eigen
Definition: serialization.h:15

FT::Util::condition_number
float condition_number(const MatrixXf &X)
returns the condition number of a matrix.
Definition: utils.cc:236

FT::Util::ltrim
std::string ltrim(std::string str, const std::string &chars)
Definition: utils.cc:31

FT::Util::skew
float skew(const ArrayXf &v)
calculate skew
Definition: utils.cc:141

FT::Util::mad
float mad(const ArrayXf &x)
median absolute deviation
Definition: utils.cc:189

FT::Util::isinf
ArrayXb isinf(const ArrayXf &x)
returns true for elements of x that are infinite
Definition: utils.cc:217

FT::Util::slope
float slope(const ArrayXf &x, const ArrayXf &y)
slope of x/y
Definition: utils.cc:177

FT::Util::isnan
ArrayXb isnan(const ArrayXf &x)
returns true for elements of x that are NaN
Definition: utils.cc:226

FT::Util::softmax
vector< T > softmax(const vector< T > &w)
return the softmax transformation of a vector.
Definition: utils.h:130

FT::Util::ravel
std::string ravel(const vector< string > &v, string sep)
takes a vector string and returns it as a delimited string.
Definition: utils.cc:297

FT::Util::trim
std::string trim(std::string str, const std::string &chars)
Definition: utils.cc:43

FT::Util::mean_square_corrcoef
float mean_square_corrcoef(const MatrixXf &X)
Definition: utils.cc:266

FT::Util::covariance
float covariance(const ArrayXf &x, const ArrayXf &y)
covariance of x and y
Definition: utils.cc:164

FT::Util::argmiddle
int argmiddle(vector< float > &v)
returns the (first) index of the element with the middlest value in v
Definition: utils.cc:109

FT::Util::corrcoef
MatrixXf corrcoef(const MatrixXf &X)
returns the pearson correlation coefficients of matrix.
Definition: utils.cc:254

FT::Util::PBSTR
string PBSTR
Definition: utils.cc:14

FT::Util::pearson_correlation
float pearson_correlation(const ArrayXf &x, const ArrayXf &y)
the normalized covariance of x and y
Definition: utils.cc:184

FT::Util::find_dtypes
vector< char > find_dtypes(const MatrixXf &X)
determines data types of columns of matrix X.
Definition: utils.cc:49

FT::Util::unique
vector< T > unique(Array< T, -1, 1 > w)
returns unique elements in 1d Eigen array
Definition: utils.h:363

FT::Util::kurtosis
float kurtosis(const ArrayXf &v)
calculate kurtosis
Definition: utils.cc:153

FT::Util::PBWIDTH
int PBWIDTH
Definition: utils.cc:15

FT::Util::median
float median(const ArrayXf &v)
calculate median
Definition: utils.cc:89

FT::Util::to_string
std::string to_string(const T a_value, const int n)
Definition: utils.h:430

FT::Util::argsort
vector< size_t > argsort(const vector< T > &v, bool ascending=true)
return indices that sort a vector
Definition: utils.h:81

FT::Util::in
bool in(const vector< T > v, const T &i)
check if element is in vector.
Definition: utils.h:47

FT::Util::rtrim
std::string rtrim(std::string str, const std::string &chars)
Definition: utils.cc:37

FT::Util::variance
float variance(const ArrayXf &v, float mean)
calculate variance when mean provided
Definition: utils.cc:127

FT::Util::clean
void clean(ArrayXf &x)
limits node output to be between MIN_FLT and MAX_FLT
Definition: utils.cc:18

FT::Util::NLOHMANN_DEFINE_TYPE_NON_INTRUSIVE
NLOHMANN_DEFINE_TYPE_NON_INTRUSIVE(Log_Stats, generation, time, min_loss, min_loss_v, med_loss, med_loss_v, med_size, med_complexity, med_num_params, med_dim)

FT
main Feat namespace
Definition: data.cc:13

FT::i
int i
Definition: params.cc:552

FT::NEAR_ZERO
static float NEAR_ZERO
Definition: init.h:46

FT::Util::Log_Stats
Definition: utils.h:382

FT::Util::Log_Stats::med_size
vector< unsigned > med_size
Definition: utils.h:389

FT::Util::Log_Stats::min_loss_v
vector< float > min_loss_v
Definition: utils.h:386

FT::Util::Log_Stats::med_loss_v
vector< float > med_loss_v
Definition: utils.h:388

FT::Util::Log_Stats::time
vector< float > time
Definition: utils.h:384

FT::Util::Log_Stats::med_num_params
vector< unsigned > med_num_params
Definition: utils.h:391

FT::Util::Log_Stats::med_dim
vector< unsigned > med_dim
Definition: utils.h:392

FT::Util::Log_Stats::min_loss
vector< float > min_loss
Definition: utils.h:385

FT::Util::Log_Stats::med_complexity
vector< unsigned > med_complexity
Definition: utils.h:390

FT::Util::Log_Stats::generation
vector< int > generation
Definition: utils.h:383

FT::Util::Log_Stats::med_loss
vector< float > med_loss
Definition: utils.h:387

FT::Util::Normalizer
normalizes a matrix to unit variance, 0 mean centered.
Definition: utils.h:147

FT::Util::Normalizer::dtypes
vector< char > dtypes
Definition: utils.h:155

FT::Util::Normalizer::fit_normalize
void fit_normalize(MatrixBase< T > &X, const vector< char > &dtypes)
fit then normalize
Definition: utils.h:315

FT::Util::Normalizer::scale_all
bool scale_all
Definition: utils.h:156

FT::Util::Normalizer::adjust_weights
void adjust_weights(shogun::SGVector< T > &B) const
Definition: utils.h:235

FT::Util::Normalizer::scale
vector< float > scale
Definition: utils.h:151

FT::Util::Normalizer::adjust_weights
void adjust_weights(vector< T > &B) const
Definition: utils.h:242

FT::Util::Normalizer::adjust_offset
float adjust_offset(const shogun::SGVector< T > &Bn, float init_offset) const
Definition: utils.h:281

FT::Util::Normalizer::adjust_offset
float adjust_offset(const MatrixBase< T > &Bn, float init_offset) const
Definition: utils.h:249

FT::Util::Normalizer::Normalizer
Normalizer(bool sa=true, bool rm_offset=true)
Definition: utils.h:148

FT::Util::Normalizer::remove_offset
bool remove_offset
Definition: utils.h:157

FT::Util::Normalizer::adjust_offset
float adjust_offset(const vector< T > &Bn, float init_offset) const
Definition: utils.h:274

FT::Util::Normalizer::fit
void fit(const MatrixBase< T > &X, const vector< char > &dt)
fit the scale and offset of data.
Definition: utils.h:161

FT::Util::Normalizer::adjust_weights
void adjust_weights(MatrixBase< T > &B) const
return weights of a linear model, y = B*X, given weights of
Definition: utils.h:215

FT::Util::Normalizer::invert
void invert(MatrixBase< T > &X) const
inverse normalize a matrix.
Definition: utils.h:289

FT::Util::Normalizer::normalize
void normalize(MatrixBase< T > &X) const
normalize matrix.
Definition: utils.h:191

FT::Util::Normalizer::offset
vector< float > offset
Definition: utils.h:154