dc/d37/feat_8cc_source.html

 /* FEAT

 copyright 2017 William La Cava

 license: GNU/GPL v3

 */


 #include "feat.h"


 //shogun initialization

 void __attribute__ ((constructor)) ctor()

 {

     init_shogun_with_defaults();

 }


 void __attribute__ ((destructor))  dtor()

 {

     exit_shogun();

     FT::Rnd::destroy();

     FT::Logger::destroy();

 }


 using namespace FT;


 void Feat::init()

 {

     if (params.n_jobs!=0)

         omp_set_num_threads(params.n_jobs);

     r.set_seed(params.random_state);


     if (GPU)

         initialize_cuda();

     // set Feat's Normalizer to only normalize floats by default

     this->N = Normalizer(false);

     this->archive.set_objectives(params.objectives);

     set_is_fitted(false);


     // start the clock

     timer.Reset();

     // signal handler

     signal(SIGINT, my_handler);

     // reset statistics

     this->stats = Log_Stats();

     params.use_batch = params.bp.batch_size>0;

 }


 void Feat::fit(MatrixXf& X, VectorXf& y, LongData& Z)

 {


     this->init();

     std::ofstream log;

     if (!logfile.empty())

         log.open(logfile, std::ofstream::app);

     params.init(X, y);


     string FEAT;

     if (params.verbosity == 1)

     {

         FEAT = (

       "/// Feature Engineering Automation Tool "

       "* \xc2\xa9 La Cava et al 2017 "

       "* GPL3 \\\\\\\n"

         );

     }

     else if (params.verbosity == 2)

     {

         FEAT = (

       "/////////////////////////////////////////////////////////////////////\n"

       "//           * Feature Engineering Automation Tool *               //\n"

       "// La Cava et al. 2017                                             //\n"

       "// License: GPL v3                                                 //\n"

       "// https://cavalab.org/feat                                        //\n"

       "/////////////////////////////////////////////////////////////////////\n"

         );

     }


     if (params.use_batch)

     {

         if (params.bp.batch_size >= X.cols())

         {

             logger.log("turning off batch because X has fewer than "

                     + to_string(params.bp.batch_size) + " samples", 1);

             params.use_batch = false;

         }

         else

         {

             logger.log("using batch with batch_size= "

                     + to_string(params.bp.batch_size), 2);

         }

     }


     // if(str_dim.compare("") != 0)

     // {

     //     string dimension;

     //     dimension = str_dim.substr(0, str_dim.length() - 1);

     //     logger.log("STR DIM IS "+ dimension, 2);

     //     logger.log("Cols are " + std::to_string(X.rows()), 2);

     //     logger.log("Setting dimensionality as " +

     //                std::to_string((int)(ceil(stod(dimension)*X.rows()))), 2);

     //     set_max_dim(ceil(stod(dimension)*X.rows()));

     // }


     logger.log(FEAT,1);


     this->archive.set_objectives(params.objectives);


     // normalize data

     if (params.normalize)

     {

         N.fit_normalize(X,params.dtypes);

     }

     this->pop = Population(params.pop_size);

     this->evaluator = Evaluation(params.scorer_);


     /* create an archive to save Pareto front,

      * unless NSGA-2 is being used for survival

      */

     /* if (!survival.compare("nsga2")) */

     /*     use_arch = false; */

     /* else */

     /*     use_arch = true; */

     use_arch = false;


     logger.log("scorer: " + params.scorer_, 1);


     // split data into training and test sets

     //Data data(X, y, Z, params.classification);

     DataRef d(X, y, Z, params.classification, params.protected_groups);

     //DataRef d;

     //d.setOriginalData(&data);

     d.train_test_split(params.shuffle, params.split);

     // define terminals based on size of X

     params.set_terminals(d.o->X.rows(), d.o->Z);


     // initial model on raw input

     logger.log("Setting up data", 2);

     float t0 =  timer.Elapsed().count();


     //data for batch training

     MatrixXf Xb;

     VectorXf yb;

     LongData Zb;

     Data db(Xb, yb, Zb, params.classification, params.protected_groups);


     Data *tmp_train;


     if(params.use_batch)

     {

         tmp_train = d.t;

         d.t->get_batch(db, params.bp.batch_size);

         d.setTrainingData(&db);

     }


     if (params.classification)

         params.set_sample_weights(d.t->y);


     // initialize population

     logger.log("Initializing population", 2);


     bool random = selector.get_type() == "random";


     // initial model

     logger.log("Fitting initial model", 2);

     t0 =  timer.Elapsed().count();

     initial_model(d);

     logger.log("Initial fitting took "

             + std::to_string(timer.Elapsed().count() - t0) + " seconds",2);


     // initialize population with initial model and/or starting pop

     pop.init(best_ind,params,random, this->starting_pop);

     logger.log("Initial population:\n"+pop.print_eqns(),3);


     // evaluate initial population

     logger.log("Evaluating initial population",2);

     evaluator.fitness(pop.individuals,*d.t,params);

     evaluator.validation(pop.individuals,*d.v,params);


     logger.log("Initial population done",2);

     logger.log(std::to_string(timer.Elapsed().count()) + " seconds",2);


     vector<size_t> survivors;


     if(params.use_batch)    // reset d to all training data

         d.setTrainingData(tmp_train, true);


     // =====================

     // main generational loop

     unsigned g = 0;

     unsigned stall_count = 0;

     float fraction = 0;

     // continue until max gens is reached or max_time is up (if it is set)


     while(

         // time limit

         (params.max_time == -1 || params.max_time > timer.Elapsed().count())

         // generation limit

         && g<params.gens

         // stall limit

         && (params.max_stall == 0 || stall_count < params.max_stall)

         )

     {

         fraction = params.max_time == -1 ? ((g+1)*1.0)/params.gens :

                                        timer.Elapsed().count()/params.max_time;

         if(params.use_batch)

         {

             d.t->get_batch(db, params.bp.batch_size);

             DataRef dbr;    // reference to minibatch data

             dbr.setTrainingData(&db);

             dbr.setValidationData(d.v);


             if (params.classification)

                 params.set_sample_weights(dbr.t->y);


             run_generation(g, survivors, dbr, log, fraction, stall_count);

         }

         else

         {

             run_generation(g, survivors, d, log, fraction, stall_count);

         }


         g++;

     }

     // =====================

     if ( params.max_stall != 0 && stall_count >= params.max_stall)

         logger.log("learning stalled",2);

     else if ( g >= params.gens)

         logger.log("generation limit reached",2);

     else

         logger.log("max time reached",2);


     logger.log("train score: " + std::to_string(this->min_loss), 2);

     logger.log("validation score: " + std::to_string(min_loss_v), 2);

     logger.log("fitting final model to all training data...",2);


     // simplify the final model

     if (simplify > 0.0)

     {

         this->best_ind.fit(*d.o, params);

         simplify_model(d, this->best_ind);

     }


     // fit final model to best features

     final_model(d);


     // if we're not using an archive, let's store the final population in the

     // archive

     if (!use_arch)

     {

         archive.individuals = pop.individuals;

     }


     if (save_pop > 0)

     {

         pop.save(this->logfile+".pop.gen" + to_string(params.current_gen)

                 + ".json");

         this->best_ind.save(this->logfile+".best.json");

     }


     if (log.is_open())

         log.close();


     set_is_fitted(true);

     logger.log("Run Completed. Total time taken is "

             + std::to_string(timer.Elapsed().count()) + " seconds", 1);

     logger.log("best model: " + this->get_eqn(),1);

     logger.log("tabular model:\n" + this->get_model(),2);

     logger.log("/// ----------------------------------------------------------------- \\\\\\",

             1);


 }

 void Feat::set_pop_size(int pop_size){ params.pop_size = pop_size; }


 void Feat::set_gens(int gens){ params.gens = gens;}


 void Feat::set_ml(string ml){ params.ml = ml; }


 void Feat::set_classification(bool classification)

 {

     params.classification = classification;

 }


 void Feat::set_verbosity(int verbosity){ params.set_verbosity(verbosity); }


 void Feat::set_max_stall(int max_stall){    params.max_stall = max_stall; }


 void Feat::set_selection(string sel){ this->selector = Selection(sel, false); }


 void Feat::set_survival(string surv)

 {

     survival=surv;

     survivor = Selection(surv, true);

 }


 void Feat::set_cross_rate(float cross_rate)

 {

     params.cross_rate = cross_rate;

     variator.set_cross_rate(cross_rate);

 }


 void Feat::set_root_xo_rate(float cross_rate)

 {

     params.root_xo_rate = cross_rate;

 }


 void Feat::set_otype(char ot){ params.set_otype(ot); }


 void Feat::set_max_depth(unsigned int max_depth)

 {

     params.set_max_depth(max_depth);

 }


 void Feat::set_max_dim(unsigned int max_dim){   params.set_max_dim(max_dim); }


 // void Feat::set_max_dim(string str){ str_dim = str; }


 void Feat::set_random_state(int rs)

 {

     params.random_state=rs;

     r.set_seed(rs);

 }


 void Feat::set_erc(bool erc){ params.erc = erc; }


 void Feat::set_shuffle(bool sh){params.shuffle = sh;}


 void Feat::set_split(float sp){params.split = sp;}


 void Feat::set_dtypes(vector<char> dtypes){params.dtypes = dtypes;}


 void Feat::set_fb(float fb){ params.feedback = fb;}


 void Feat::set_logfile(string s){logfile = s;}


 void Feat::set_scorer(string s){params.set_scorer(s);}

 string Feat::get_scorer_(){return params.scorer_;}

 string Feat::get_scorer(){return params.scorer;}


 void Feat::set_backprop(bool bp){params.backprop=bp;}


 void Feat::set_simplify(float s){this->simplify=s;}


 void Feat::set_corr_delete_mutate(bool s){this->params.corr_delete_mutate=s;}


 void Feat::set_hillclimb(bool hc){params.hillclimb=hc;}


 void Feat::set_iters(int iters){params.bp.iters = iters; params.hc.iters=iters;}


 void Feat::set_lr(float lr){params.bp.learning_rate = lr;}


 void Feat::set_batch_size(int bs)

 {

     params.bp.batch_size = bs;

     params.use_batch = bs>0;

 }


 void Feat::set_n_jobs(unsigned t){ omp_set_num_threads(t); }


 void Feat::set_max_time(int time){ params.max_time = time; }


 void Feat::set_use_batch(){ params.use_batch = true; }


 void Feat::set_protected_groups(string pg)

 {

     params.set_protected_groups(pg);

 }

 /*

  * getting functions

  */


 int Feat::get_pop_size(){ return params.pop_size; }


 int Feat::get_gens(){ return params.gens; }


 string Feat::get_ml(){ return params.ml; }


 bool Feat::get_classification(){ return params.classification; }


 int Feat::get_max_stall() { return params.max_stall; }


 vector<char> Feat::get_otypes(){ return params.otypes; }


 int Feat::get_verbosity(){ return params.verbosity; }


 int Feat::get_max_depth(){ return params.max_depth; }


 float Feat::get_cross_rate(){ return params.cross_rate; }


 int Feat::get_max_size(){ return params.max_size; }


 int Feat::get_max_dim(){ return params.max_dim; }


 bool Feat::get_erc(){ return params.erc; }


 string Feat::get_logfile(){ return logfile; }


 int Feat::get_num_features(){ return params.num_features; }


 bool Feat::get_shuffle(){ return params.shuffle; }


 float Feat::get_split(){ return params.split; }


 /* void add_function(unique_ptr<Node> N){ params.functions.push_back(N->clone()); } */


 vector<char> Feat::get_dtypes(){ return params.dtypes; }


 float Feat::get_fb(){ return params.feedback; }


 string Feat::get_representation(){ return best_ind.get_eqn();}


 string Feat::get_eqn(bool sort){ return this->get_ind_eqn(sort, this->best_ind); };


 string Feat::get_ind_eqn(bool sort, Individual& ind)

 {

     vector<string> features = ind.get_features();

     vector<float> weights = ind.ml->get_weights();

     float offset = ind.ml->get_bias();


     /* if (params.normalize) */

     /* { */

     /*     offset = this->N.adjust_offset(weights, offset); */

     /*     this->N.adjust_weights(weights); */

     /* } */


     vector<size_t> order(weights.size());

     if (sort)

     {

         vector<float> aweights(weights.size());

         for (int i =0; i<aweights.size(); ++i)

             aweights[i] = fabs(weights[i]);

         order = argsort(aweights, false);

     }

     else

         iota(order.begin(), order.end(), 0);


     string output;

     output +=  to_string(offset);

     if (weights.size() > 0)

     {

         if (weights.at(order.at(0)) > 0)

             output += "+";

     }

     int i = 0;

     for (const auto& o : order)

     {

         output += to_string(weights.at(o), 2);

         output += "*";

         output += features.at(o);

         if (i < order.size()-1)

         {

             if (weights.at(order.at(i+1)) > 0)

                 output+= "+";

         }

         ++i;

     }


     return output;

 }


 string Feat::get_model(bool sort)

 {

     vector<string> features = best_ind.get_features();

     vector<float> weights = best_ind.ml->get_weights();

     float offset = best_ind.ml->get_bias();

     /* if (params.normalize) */

     /* { */

     /*     offset = this->N.adjust_offset(weights, offset); */

     /*     this->N.adjust_weights(weights); */

     /* } */


     vector<size_t> order(weights.size());

     if (sort)

     {

         vector<float> aweights(weights.size());

         for (int i =0; i<aweights.size(); ++i)

             aweights[i] = fabs(weights[i]);

         order = argsort(aweights, false);

     }

     else

         iota(order.begin(), order.end(), 0);


     string output;

     output += "Weight\tFeature\n";

     output +=  to_string(offset) + "\toffset" + "\n";

     for (const auto& o : order)

     {

         output += to_string(weights.at(o), 2);

         output += "\t";

         output += features.at(o);

         output += "\n";

     }


     return output;

 }


 int Feat::get_n_params(){ return best_ind.get_n_params(); }


 int Feat::get_dim(){ return best_ind.get_dim(); }


 int Feat::get_complexity(){ return best_ind.get_complexity(); }


 int Feat::get_n_nodes(){ return best_ind.program.size(); }


 vector<json> Feat::get_archive(bool front)

 {

     /* TODO: maybe this should just return the to_json call of

      * the underlying population / archive. I guess the problem

      * is that we don't have to_json defined for vector<Individual>.

      */

     vector<Individual>* printed_pop = NULL;


     string r = "";


     vector<size_t> idx;

     bool subset = false;

     if (front)  // only return individuals on the Pareto front

     {

         if (use_arch)

         {

             printed_pop = &archive.individuals;

         }

         else

         {

             unsigned n = 1;

             subset = true;

             idx = this->pop.sorted_front(n);

             printed_pop = &this->pop.individuals;

         }

     }

     else

         printed_pop = &this->pop.individuals;


     if (!subset)

     {

         idx.resize(printed_pop->size());

         std::iota(idx.begin(), idx.end(), 0);

     }


     bool includes_best_ind = false;


     vector<json> json_archive;


     for (int i = 0; i < idx.size(); ++i)

     {

         Individual& ind = printed_pop->at(idx[i]);


         json j;

         to_json(j, ind);


         // r += j.dump();

         json_archive.push_back(j);


         if (i < idx.size() -1)

             r += "\n";

         // check if best_ind is in here

         if (ind.id == best_ind.id)

             includes_best_ind = true;

     }


     // add best_ind, if it is not included

     if (!includes_best_ind)

     {

         json j;

         to_json(j, best_ind);

         json_archive.push_back(j);

     }


     // delete pop pointer

     printed_pop = NULL;

     delete printed_pop;


     return json_archive;

 }


 ArrayXf Feat::get_coefs()

 {

     auto tmpw = best_ind.ml->get_weights();

     ArrayXf w = ArrayXf::Map(tmpw.data(), tmpw.size());

     return w;

 }


 std::map<string, std::pair<vector<ArrayXf>, vector<ArrayXf>>> Feat::get_Z(string s,

         int * idx, int idx_size)

 {

     LongData Z;

     vector<int> ids(idx,idx+idx_size);

     load_partial_longitudinal(s,Z,',',ids);


     return Z;

 }


 void Feat::fit(MatrixXf& X, VectorXf& y)

 {

     auto Z = LongData();

     fit(X,y,Z);

 }


 void Feat::run_generation(unsigned int g,

                       vector<size_t> survivors,

                       DataRef &d,

                       std::ofstream &log,

                       float fraction,

                       unsigned& stall_count)

 {

     d.t->set_protected_groups();


     params.set_current_gen(g);


     // select parents

     logger.log("selection..", 2);

     vector<size_t> parents = selector.select(pop, params, *d.t);

     logger.log("parents:\n"+pop.print_eqns(), 3);


     // variation to produce offspring

     logger.log("variation...", 2);

     variator.vary(pop, parents, params,*d.t);

     logger.log("offspring:\n" + pop.print_eqns(true), 3);


     // evaluate offspring

     logger.log("evaluating offspring...", 2);

     evaluator.fitness(pop.individuals, *d.t, params, true);

     evaluator.validation(pop.individuals, *d.v, params, true);


     // select survivors from combined pool of parents and offspring

     logger.log("survival...", 2);

     survivors = survivor.survive(pop, params, *d.t);


     // reduce population to survivors

     logger.log("shrinking pop to survivors...",2);

     pop.update(survivors);

     logger.log("survivors:\n" + pop.print_eqns(), 3);


     logger.log("update best...",2);

     bool updated_best = update_best(d);


     logger.log("calculate stats...",2);

     calculate_stats(d);


     if (params.max_stall > 0)

         update_stall_count(stall_count, updated_best);


     if ( (use_arch || params.verbosity>1) || !logfile.empty()) {

         // set objectives to make sure they are reported in log/verbose/arch

         #pragma omp parallel for

         for (unsigned int i=0; i<pop.size(); ++i)

             pop.individuals.at(i).set_obj(params.objectives);

     }


     logger.log("update archive...",2);

     if (use_arch)

         archive.update(pop,params);


     if(params.verbosity>1)

         print_stats(log, fraction);

     else if(params.verbosity == 1)

         printProgress(fraction);


     if (!logfile.empty())

         log_stats(log);


     if (save_pop > 1)

         pop.save(this->logfile+".pop.gen" +

                     to_string(params.current_gen) + ".json");


     // tighten learning rate for grad descent as evolution progresses

     if (params.backprop)

     {

         params.bp.learning_rate = \

             (1-1/(1+float(params.gens)))*params.bp.learning_rate;

         logger.log("learning rate: "

                 + std::to_string(params.bp.learning_rate),3);

     }

     logger.log("finished with generation...",2);


 }


 void Feat::update_stall_count(unsigned& stall_count, bool best_updated)

 {

     if (params.current_gen == 0 || best_updated )

     {

         /* best_med_score = this->med_loss_v; */

         stall_count = 0;

     }

     else

     {

         ++stall_count;

     }


     logger.log("stall count: " + std::to_string(stall_count), 2);

 }


 void Feat::final_model(DataRef& d)

 {

     // fits final model to best tranformation found.

     shared_ptr<CLabels> yhat;

     if (params.tune_final)

         yhat = best_ind.fit_tune(*d.o, params);

     else

         yhat = best_ind.fit(*d.o, params);


     VectorXf tmp;

     /* params.set_sample_weights(y);   // need to set new sample weights for y, */

                                     // which is probably from a validation set

     float score = evaluator.S.score(d.o->y,yhat,tmp,params.class_weights);

     logger.log("final_model score: " + std::to_string(score),2);

 }


 void Feat::simplify_model(DataRef& d, Individual& ind)

 {

     /* Simplifies the final model using some expert rules and stochastic hill

      * climbing.

      * Expert rules:

      *  - NOT(NOT(x)) simplifies to x

      * Stochastic hill climbing:

      * for some number iterations, apply delete mutation to the equation.

      * if the output of the model doesn't change, keep the mutations.

      */


     // check for specific patterns

     //

     Individual tmp_ind = ind;

     int starting_size = ind.size();

     vector<size_t> roots = tmp_ind.program.roots();

     vector<size_t> idx_to_remove;


     logger.log("\n=========\ndoing pattern pruning...",2);

     logger.log("simplify: " + to_string(this->simplify), 2);


     for (auto r : roots)

     {

         size_t start = tmp_ind.program.subtree(r);

         int first_occurence = -2;


         /* cout << "start: " << start << "\n"; */

         for (int i = start ; i <= r; ++i)

         {

             /* cout << "i: " << i << ", first_occurence: " << first_occurence */

             /*     << "\n"; */

             if (tmp_ind.program.at(i)->name.compare("not")==0)

             {

                 if (first_occurence == i-1) // indicates two NOTs in a row

                 {

                     /* cout << "pushing back " << first_occurence */

                     /*     << " and " << i << " to idx_to_remove\n"; */

                     idx_to_remove.push_back(first_occurence);

                     idx_to_remove.push_back(i);

                     // reset first_occurence so we don't pick up triple nots

                     first_occurence = -2;

                 }

                 else

                 {

                     first_occurence = i;

                 }

             }

         }

     }

     // remove indices in reverse order so they don't change

     std::reverse(idx_to_remove.begin(), idx_to_remove.end());

     for (auto idx: idx_to_remove)

     {

         /* cout << "removing " << tmp_ind.program.at(idx)->name */

         /*     << " at " << idx << "\n"; */

         tmp_ind.program.erase(tmp_ind.program.begin()+idx);

     }

     int end_size = tmp_ind.size();

     logger.log("pattern pruning reduced best model size by "

             + to_string(starting_size - end_size)

             + " nodes\n=========\n", 2);

     if (tmp_ind.size() < ind.size())

     {

         ind = tmp_ind;

         logger.log("new model:" + this->get_ind_eqn(false, ind),2);

     }


     // prune dimensions

     /* set_verbosity(3); */

     int iterations = ind.get_dim();

     logger.log("\n=========\ndoing correlation deletion mutations...",2);

     starting_size = ind.size();

     VectorXf original_yhat;

     if (params.classification && params.n_classes==2)

          original_yhat = ind.predict_proba(*d.o).row(0);

     else

          original_yhat = ind.yhat;


     for (int i = 0; i < iterations; ++i)

     {

         Individual tmp_ind = ind;

         bool perfect_correlation = variator.correlation_delete_mutate(

                 tmp_ind, ind.Phi, params, *d.o);


         if (ind.size() == tmp_ind.size())

         {

             continue;

         }


         tmp_ind.fit(*d.o, params);


         VectorXf new_yhat;

         if (params.classification && params.n_classes==2)

              new_yhat = tmp_ind.predict_proba(*d.o).row(0);

         else

              new_yhat = tmp_ind.yhat;


         if (((original_yhat - new_yhat).norm()/original_yhat.norm()

                 <= this->simplify )

                 or perfect_correlation)

         {

             logger.log("\ndelete dimension mutation success: went from "

                 + to_string(ind.size()) + " to "

                 + to_string(tmp_ind.size()) + " nodes. Output changed by "

                  + to_string(100*(original_yhat

                         -new_yhat).norm()/(original_yhat.norm()))

                  + " %", 2);

             if (perfect_correlation)

                 logger.log("perfect correlation",2);

             ind = tmp_ind;

         }

         else

         {

             logger.log("\ndelete dimension mutation failure. Output changed by "

                  + to_string(100*(original_yhat

                         -new_yhat).norm()/(original_yhat.norm()))

                  + " %", 2);

             // if this mutation fails, it will continue to fail since it

             // is deterministic. so, break in this case.

             break;

         }


     }

     end_size = ind.size();

     logger.log("correlation pruning reduced best model size by "

             + to_string(starting_size - end_size)

             + " nodes\n=========\n", 2);

     if (end_size < starting_size)

         logger.log("new model:" + this->get_ind_eqn(false, ind),2);


     // prune subtrees

     iterations = 1000;

     logger.log("\n=========\ndoing subtree deletion mutations...", 2);

     starting_size = ind.size();

     for (int i = 0; i < iterations; ++i)

     {

         Individual tmp_ind = ind;

         this->variator.delete_mutate(tmp_ind, params);

         if (ind.size() == tmp_ind.size())

             continue;


         tmp_ind.fit(*d.o, params);


         VectorXf new_yhat;

         if (params.classification && params.n_classes==2)

              new_yhat = tmp_ind.predict_proba(*d.o).row(0);

         else

              new_yhat = tmp_ind.yhat;


         if ((original_yhat - new_yhat).norm()/original_yhat.norm()

                 <= this->simplify )

         {

             logger.log("\ndelete mutation success: went from "

                 + to_string(ind.size()) + " to "

                 + to_string(tmp_ind.size()) + " nodes. Output changed by "

                  + to_string(100*(original_yhat

                         -new_yhat).norm()/(original_yhat.norm()))

                  + " %", 2);

             ind = tmp_ind;

         }

         else

         {

             logger.log("\ndelete mutation failure. Output changed by "

                  + to_string(100*(original_yhat

                         -new_yhat).norm()/(original_yhat.norm()))

                  + " %", 2);

             // if this mutation fails, it will continue to fail since it

             // is deterministic. so, break in this case.

             break;

         }


     }

     end_size = ind.size();

     logger.log("subtree deletion reduced best model size by "

             + to_string( starting_size - end_size )

             + " nodes", 2);

     VectorXf new_yhat;

     if (params.classification && params.n_classes==2)

          new_yhat = ind.predict_proba(*d.o).row(0);

     else

          new_yhat = ind.yhat;

     VectorXf difference = new_yhat - original_yhat;

     /* cout << "final % difference: " << difference.norm()/original_yhat.norm() */

     /*     << endl; */

 }


 vector<float> Feat::univariate_initial_model(DataRef &d, int n_feats)

 {

     vector<float> univariate_weights(d.t->X.rows() + d.t->Z.size(),0.0);

     int N = d.t->X.cols();


     MatrixXf predictor(1,N);

     string ml_type = this->params.classification?

         "LR" : "LinearRidgeRegression";


     ML ml = ML(ml_type,params.normalize,params.classification,params.n_classes);


     bool pass = true;


     logger.log("univariate_initial_model",2);

     logger.log("N: " + to_string(N),2);

     logger.log("n_feats: " + to_string(n_feats),2);


     for (unsigned i =0; i<d.t->X.rows(); ++i)

     {

         predictor.row(0) = d.t->X.row(i);

         /* float b =  (covariance(predictor,d.t->y) / */

         /*             variance(predictor)); */

         pass = true;

         shared_ptr<CLabels> yhat = ml.fit(predictor, d.t->y, this->params,

                 pass);

         if (pass)

             univariate_weights.at(i) = ml.get_weights().at(0);

         else

             univariate_weights.at(i) = 0;

     }

     int j = d.t->X.rows();

     for (const auto& val: d.t->Z)

     {

         for (int k = 0; k<N; ++k)

             predictor(k) = median(val.second.second.at(k));


         /* float b =  (covariance(predictor,d.t->y) / */

         /*             variance(predictor)); */

         /* univariate_weights.at(j) = fabs(b); */


         pass = true;

         shared_ptr<CLabels> yhat = ml.fit(predictor, d.t->y, this->params,

                 pass);

         if (pass)

             univariate_weights.at(j) = ml.get_weights().at(0);

         else

             univariate_weights.at(j) = 0;


         ++j;

     }

     return univariate_weights;


 }

 void Feat::initial_model(DataRef &d)

 {

     best_ind = Individual();

     best_ind.set_id(0);

     int j;

     int n_x = d.t->X.rows();

     int n_z = d.t->Z.size();

     int n_feats = std::min(params.max_dim, unsigned(n_x+ n_z));

     /* int n_long_feats = std::min(params.max_dim - n_feats, */

     /*         unsigned(d.t->Z.size())); */

     bool univariate_initialization = false;


     if (n_feats < (n_x + n_z))

     {

         // if the data has more features than params.max_dim, fit a univariate

         // linear model to each feature in order to set initial weights

         univariate_initialization = true;

         vector<float> univariate_weights = univariate_initial_model(d,

                 n_feats);


         vector<size_t> feature_order = argsort(univariate_weights, false);

         feature_order.erase(feature_order.begin()+n_feats,

                             feature_order.end());


         for (const auto& f : feature_order)

         {

             if (f < n_x)

                 best_ind.program.push_back(params.terminals.at(f)->clone());

             else

             {

                 best_ind.program.push_back(params.terminals.at(f)->clone());

                 best_ind.program.push_back(

                         std::unique_ptr<Node>(new NodeMedian()));

             }


         }

         params.set_term_weights(univariate_weights);

     }

     else

     {

         for (unsigned i =0; i<n_x; ++i)

         {

             best_ind.program.push_back(params.terminals.at(i)->clone());

         }

         // if there is longitudinal data, initialize the model with median

         // values applied to those variables.

         for (unsigned i =0; i<n_z; ++i)

         {

             best_ind.program.push_back(params.terminals.at(n_x + i)->clone());

             best_ind.program.push_back(

                     std::unique_ptr<Node>(new NodeMedian()));

         }

     }

     // fit model


     shared_ptr<CLabels> yhat;


     if (univariate_initialization)

     {

         yhat = best_ind.fit(*d.t,params);

     }

     else

     {

         // tune default ML parameters

         if (params.tune_initial)

             yhat = best_ind.fit_tune(*d.t, params, true);

         else

             yhat = best_ind.fit(*d.t, params);

         // set terminal weights based on model

         vector<float> w = best_ind.ml->get_weights();


         params.set_term_weights(w);

     }


     this->min_loss = evaluator.S.score(d.t->y, yhat, params.class_weights);


     if (params.split < 1.0)

     {

         shared_ptr<CLabels> yhat_v = best_ind.predict(*d.v);

         this->min_loss_v = evaluator.S.score(d.v->y, yhat_v,

                                              params.class_weights);

     }

     else

         this->min_loss_v = min_loss;


     best_ind.fitness = min_loss;


     this->best_complexity = best_ind.get_complexity();


     logger.log("initial model: " + this->get_eqn(), 2);

     logger.log("initial training score: " +std::to_string(min_loss),2);

     logger.log("initial validation score: " +std::to_string(this->min_loss_v),2);

 }


 MatrixXf Feat::transform(MatrixXf& X)

 {

     LongData Z;

     return transform(X,Z);

 }

 MatrixXf Feat::transform(MatrixXf& X, LongData& Z)

 {

     return transform(X,Z,nullptr);

 }

 MatrixXf Feat::transform(MatrixXf& X,

                          LongData Z,

                          Individual *ind)

 {

     if (params.normalize)

         N.normalize(X);


     VectorXf y = VectorXf();


     Data d(X, y, Z, get_classification());


     if (ind == 0)        // if ind is empty, predict with best_ind

     {

         if (best_ind.program.size()==0)

             THROW_RUNTIME_ERROR("You need to train a model using fit() "

                     "before making predictions.");


         return best_ind.out(d, true).transpose();

     }


     return ind->out(d, true).transpose();

 }


 VectorXf Feat::predict(MatrixXf& X)

 {

     auto Z = LongData();

     return predict(X,Z);

 }


 VectorXf Feat::predict(MatrixXf& X,

                        LongData& Z)

 {

     /* MatrixXf Phi = transform(X, Z); */

     if (params.normalize)

         N.normalize(X);

     VectorXf dummy;

     Data d_tmp(X, dummy, Z);

     return best_ind.predict_vector(d_tmp);

 }


 VectorXf Feat::predict_archive(int id, MatrixXf& X)

 {

     LongData Z;

     return predict_archive(id, X, Z);

 }


 VectorXf Feat::predict_archive(int id, MatrixXf& X, LongData& Z)

 {

     /* cout << "Feat::predict_archive\n"; */

     /* return predictions; */

     /* cout << "Normalize" << endl; */

     if (params.normalize)

         N.normalize(X);

     /* cout << "params.n_classes:" << params.n_classes << endl; */

     /* cout << "X.cols(): " << X.cols() << endl; */

     VectorXf predictions(X.cols());

     VectorXf empty_y;

     /* cout << "tmp_data\n"; */

     Data tmp_data(X,empty_y,Z);


     /* cout << "individual prediction id " << id << "\n"; */

     if (id == best_ind.id)

     {

         return best_ind.predict_vector(tmp_data);

     }

     for (int i = 0; i < this->archive.individuals.size(); ++i)

     {

         Individual& ind = this->archive.individuals.at(i);


         if (id == ind.id)

             return ind.predict_vector(tmp_data);


     }

     for (int i = 0; i < this->pop.individuals.size(); ++i)

     {

         Individual& ind = this->pop.individuals.at(i);


         if (id == ind.id)

             return ind.predict_vector(tmp_data);


     }


     THROW_INVALID_ARGUMENT("Could not find id = "

             + to_string(id) + "in archive or population.");

     return VectorXf();

 }


 ArrayXXf Feat::predict_proba_archive(int id, MatrixXf& X)

 {

     LongData Z;

     return predict_proba_archive(id, X, Z);

 }

 ArrayXXf Feat::predict_proba_archive(int id, MatrixXf& X, LongData& Z)

 {

     if (params.normalize)

         N.normalize(X);

     ArrayXXf predictions(X.cols(),params.n_classes);

     VectorXf empty_y;

     Data tmp_data(X,empty_y,Z);


     for (int i = 0; i < this->archive.individuals.size(); ++i)

     {

         Individual& ind = this->archive.individuals.at(i);


         if (id == ind.id)

             return ind.predict_proba(tmp_data);


     }


     THROW_INVALID_ARGUMENT("Could not find id = "

             + to_string(id) + "in archive.");

     return ArrayXXf();


 }

 shared_ptr<CLabels> Feat::predict_labels(MatrixXf& X, LongData Z)

 {

     /* MatrixXf Phi = transform(X, Z); */

     if (params.normalize)

         N.normalize(X);

     VectorXf empty_y;

     Data tmp_data(X,empty_y,Z);


     return best_ind.predict(tmp_data);

 }


 ArrayXXf Feat::predict_proba(MatrixXf& X, LongData& Z)

 {

     if (params.normalize)

         N.normalize(X);

     VectorXf dummy;

     Data d_tmp(X, dummy, Z);

     return best_ind.predict_proba(d_tmp);

 }


 ArrayXXf Feat::predict_proba(MatrixXf& X)

 {

     LongData Z;

     return predict_proba(X,Z);

 }


 bool Feat::update_best(const DataRef& d, bool validation)

 {

     float bs;

     bs = this->min_loss_v;

     float f;

     vector<Individual>& pop_ref = (use_arch ?

                                archive.individuals : this->pop.individuals);


     bool updated = false;


     for (const auto& ind: pop_ref)

     {

         if (!val_from_arch || ind.rank == 1)

         {

             f = ind.fitness_v;


             if (f < bs

                 || (f == bs && ind.get_complexity() < this->best_complexity)

                 )

             {

                 bs = f;

                 this->best_ind = ind; // should this be ind.clone(best_ind); ?

                 /* ind.clone(best_ind); */

                 this->best_complexity = ind.get_complexity();

                 updated = true;

                 logger.log("better model found!", 2);

             }

         }

     }

     logger.log("current best model: " + this->get_eqn(), 2);

     this->min_loss_v = bs;


     return updated;

 }


 float Feat::score(MatrixXf& X, const VectorXf& y, LongData Z)

 {

     shared_ptr<CLabels> labels = predict_labels(X, Z);

     VectorXf loss;

     return evaluator.S.score(y,labels,loss,params.class_weights);

 }


 void Feat::calculate_stats(const DataRef& d)

 {


     VectorXf losses(this->pop.size());

     int i=0;

     for (const auto& p: this->pop.individuals)

     {

         losses(i) = p.fitness;

         ++i;

     }

     // min loss

     float min_loss = losses.minCoeff();


     // median loss

     float med_loss = median(losses.array());


     // median program size

     ArrayXf Sizes(this->pop.size());


     i = 0;


     for (const auto& p : this->pop.individuals)

     {

         Sizes(i) = p.size();

         ++i;

     }

     unsigned med_size = median(Sizes);


     // complexity

     ArrayXf Complexities(this->pop.size());

     i = 0;

     for (auto& p : this->pop.individuals)

     {

         // Calculate to assure it gets reported in stats (even if's not used as an obj)

         Complexities(i) = p.get_complexity();

         ++i;

     }


     // number of parameters

     ArrayXf Nparams(this->pop.size());

     i = 0;

     for (auto& p : this->pop.individuals)

     {

         Nparams(i) = p.get_n_params();

         ++i;

     }


     // dimensions

     ArrayXf Dims(this->pop.size());

     i = 0;

     for (auto& p : this->pop.individuals)

     {

         Dims(i) = p.get_dim();

         ++i;

     }


     /* unsigned med_size = median(Sizes); */

     unsigned med_complexity = median(Complexities);

     unsigned med_num_params = median(Nparams);

     unsigned med_dim = median(Dims);


     // calculate the median valiation loss

     ArrayXf val_fitnesses(this->pop.individuals.size());

     for (unsigned i = 0; i < this->pop.individuals.size(); ++i)

         val_fitnesses(i) = this->pop.individuals.at(i).fitness_v;

     float med_loss_v = median(val_fitnesses);

         /* fitnesses.push_back(pop.individuals.at(i).fitness); */

     /* int idx = argmiddle(fitnesses); */


     /* if (params.split < 1.0) */

     /* { */

         /* Individual& med_ind = pop.individuals.at(idx); */

         /* VectorXf tmp; */

         /* shared_ptr<CLabels> yhat_v = med_ind.predict(*d.v, params); */

         /* this->med_loss_v = p_eval->S.score(d.v->y, yhat_v, tmp, */

         /*         params.class_weights); */

     /* } */


     /* ///////////////////////////////////////////// */


     // update stats

     stats.update(params.current_gen,

                  timer.Elapsed().count(),

                  min_loss,

                  this->min_loss_v,

                  med_loss,

                  med_loss_v,

                  med_size,

                  med_complexity,

                  med_num_params,

                  med_dim);

 }


 void Feat::print_stats(std::ofstream& log, float fraction)

 {

     unsigned num_models = std::min(50,this->pop.size());

     //float med_loss = median(F.colwise().mean().array());  // median loss

     // collect program sizes

     ArrayXf Sizes(this->pop.size());

     unsigned i = 0;

     for (const auto& p : this->pop.individuals)

     {

         Sizes(i) = p.size(); ++i;

     }

     unsigned max_size = Sizes.maxCoeff();

     // progress bar

     string bar, space = "";

     for (unsigned int i = 0; i<50; ++i)

     {

         if (i <= 50*fraction) bar += "/";

         else space += " ";

     }

     std::cout.precision(5);

     std::cout << std::scientific;


     if(params.max_time == -1)

         std::cout << "Generation " << params.current_gen+1 << "/"

             << params.gens << " [" + bar + space + "]\n";

     else

         std::cout << std::fixed << "Time elapsed "<< timer

             << "/" << params.max_time

             << " seconds (Generation "<< params.current_gen+1

             << ") [" + bar + space + "]\n";


     std::cout << std::fixed << "Train Loss (Med): "

               << stats.min_loss.back() << " ("

               << stats.med_loss.back() << ")\n"

               << "Val Loss (Med): "

               << this->min_loss_v << " (" << stats.med_loss_v.back() << ")\n"

               << "Median Size (Max): "

               << stats.med_size.back() << " (" << max_size << ")\n"

               << "Time (s): "   << timer << "\n";

     std::cout << "Representation Pareto Front--------------------------------------\n";

     std::cout << "Rank\t"; //Complexity\tLoss\tRepresentation\n";

     /* for (const auto& o : params.objectives) */

     /*     std::cout << o << "\t"; */

     cout << "fitness\tfitness_v\tcomplexity\t";

     cout << "Representation\n";


     std::cout << std::scientific;

     // printing max 40 individuals from the pareto front

     unsigned n = 1;

     if (use_arch)

     {

         num_models = std::min(40, int(archive.individuals.size()));


         for (unsigned i = 0; i < num_models; ++i)

         {

             std::string lim_model;


             std::string model = this->get_ind_eqn(false, archive.individuals[i]);

             /* std::string model = archive.individuals[i].get_eqn(); */

             for (unsigned j = 0; j< std::min(model.size(),size_t(60)); ++j)

             {

                 lim_model.push_back(model.at(j));

             }

             if (lim_model.size()==60)

                 lim_model += "...";


             std::cout <<  archive.individuals[i].rank          << "\t"

             /* for (const auto& o : archive.individuals[i].obj) */

             /*     std::cout << o << "\t"; */

                   <<  archive.individuals[i].fitness       << "\t"

                   <<  archive.individuals[i].fitness_v       << "\t"

                   <<  archive.individuals[i].get_complexity()  << "\t" ;

             cout <<  lim_model << "\n";

         }

     }

     else

     {

         vector<size_t> f = this->pop.sorted_front(n);

         vector<size_t> fnew(2,0);

         while (f.size() < num_models && fnew.size()>1)

         {

             fnew = this->pop.sorted_front(++n);

             f.insert(f.end(),fnew.begin(),fnew.end());

         }


         for (unsigned j = 0; j < std::min(num_models,unsigned(f.size())); ++j)

         {

             std::string lim_model;

             std::string model = this->get_ind_eqn(false,pop.individuals[f[j]]);

             /* std::string model = this->pop.individuals[f[j]].get_eqn(); */

             for (unsigned j = 0; j< std::min(model.size(),size_t(60)); ++j)

                 lim_model.push_back(model.at(j));

             if (lim_model.size()==60)

                 lim_model += "...";

             std::cout << pop.individuals[f[j]].rank              << "\t"

                       << pop.individuals[f[j]].fitness              << "\t"

                       << pop.individuals[f[j]].fitness_v              << "\t"

                       << pop.individuals[f[j]].get_complexity()              << "\t" ;

             cout << "\t" << lim_model << "\n";

         }

     }


     std::cout <<"\n\n";

 }


 void Feat::log_stats(std::ofstream& log)

 {

     // print stats in tabular format

     string sep = ",";

     if (params.current_gen == 0) // print header

     {

         log << "generation"     << sep

             << "time"           << sep

             << "min_loss"       << sep

             << "min_loss_val"   << sep

             << "med_loss"       << sep

             << "med_loss_val"   << sep

             << "med_size"       << sep

             << "med_complexity" << sep

             << "med_num_params" << sep

             << "med_dim"        << "\n";

     }

     log << params.current_gen          << sep

         << timer.Elapsed().count()     << sep

         << stats.min_loss.back()       << sep

         << this->min_loss_v            << sep

         << stats.med_loss.back()       << sep

         << stats.med_loss_v.back()     << sep

         << stats.med_size.back()       << sep

         << stats.med_complexity.back() << sep

         << stats.med_num_params.back() << sep

         << stats.med_dim.back()        << "\n";

 }


 //TODO: replace these with json

 json Feat::get_stats()

 {

     json j;

     to_json(j, this->stats);

     return j;

 }


 void Feat::load_best_ind(string filename)

 {

     //TODO: need to load/save normalizer

     this->best_ind.load(filename);

 }


 void Feat::load_population(string filename, bool justfront)

 {

     this->pop.load(filename);

 }


 void Feat::load(const json& j)

 {

     // json j = json::parse(feat_state);

     from_json(j, *this);

 }


 json Feat::save() const

 {

     json j;

     to_json(j, *this);

     return j;

 }


 void Feat::load_from_file(string filename)

 {

     std::ifstream indata;

     indata.open(filename);

     if (!indata.good())

         THROW_INVALID_ARGUMENT("Invalid input file " + filename + "\n");


     std::string line;

     indata >> line;


     this->load(line);


     logger.log("Loaded Feat state from " + filename,1);


     indata.close();

 }


 void Feat::save_to_file(string filename)

 {

     std::ofstream out;

     if (!filename.empty())

         out.open(filename);

     else

         out.open("Feat.json");


     out << this->save();

     out.close();

     logger.log("Saved Feat to file " + filename, 1);

 }

FT::Dat::DataRef
Definition: data.h:74

FT::Dat::DataRef::setTrainingData
void setTrainingData(MatrixXf &X_t, VectorXf &y_t, LongData &Z_t, bool c=false, vector< bool > protect=vector< bool >())
Definition: data.cc:195

FT::Dat::DataRef::t
Data * t
Definition: data.h:93

FT::Dat::DataRef::v
Data * v
Definition: data.h:92

FT::Dat::DataRef::o
Data * o
Definition: data.h:91

FT::Dat::DataRef::train_test_split
void train_test_split(bool shuffle, float split)
splits data into training and validation folds.
Definition: data.cc:362

FT::Dat::DataRef::setValidationData
void setValidationData(MatrixXf &X_v, VectorXf &y_v, LongData &Z_v, bool c=false, vector< bool > protect=vector< bool >())
Definition: data.cc:214

FT::Dat::Data
data holding X, y, and Z data
Definition: data.h:42

FT::Dat::Data::y
VectorXf & y
Definition: data.h:46

FT::Dat::Data::get_batch
void get_batch(Data &db, int batch_size) const
select random subset of data for training weights.
Definition: data.cc:79

FT::Dat::Data::Z
LongData & Z
Definition: data.h:47

FT::Dat::Data::X
MatrixXf & X
Definition: data.h:45

FT::Dat::Data::set_protected_groups
void set_protected_groups()
Definition: data.cc:29

FT::Eval::Evaluation
evaluation mixin class for Feat
Definition: evaluation.h:34

FT::Eval::Evaluation::S
Scorer S
Definition: evaluation.h:74

FT::Eval::Evaluation::validation
void validation(vector< Individual > &individuals, const Data &d, const Parameters &params, bool offspring=false)
validation of population.
Definition: evaluation.cc:22

FT::Eval::Evaluation::fitness
void fitness(vector< Individual > &individuals, const Data &d, const Parameters &params, bool offspring=false)
fitness of population.
Definition: evaluation.cc:71

FT::Eval::Scorer::score
float score(const VectorXf &y_true, const shared_ptr< CLabels > &yhat, VectorXf &loss, const vector< float > &w)
Definition: scorer.cc:41

FT::Feat::set_backprop
void set_backprop(bool bp)
set constant optimization options
Definition: feat.cc:385

FT::Feat::get_dim
int get_dim()
get dimensionality of best
Definition: feat.cc:567

FT::Feat::get_max_size
int get_max_size()
return max size of programs
Definition: feat.cc:446

FT::Feat::calculate_stats
void calculate_stats(const DataRef &d)
calculate and print stats
Definition: feat.cc:1338

FT::Feat::set_selection
void set_selection(string sel)
set selection method
Definition: feat.cc:316

FT::Feat::set_root_xo_rate
void set_root_xo_rate(float cross_rate)
set root xo rate in variation
Definition: feat.cc:333

FT::Feat::predict_proba
ArrayXXf predict_proba(MatrixXf &X, LongData &Z)
predict probabilities of each class.
Definition: feat.cc:1280

FT::Feat::load
void load(const json &j)
load Feat state from a json string.
Definition: feat.cc:1584

FT::Feat::set_random_state
void set_random_state(int random_state)
set dimensionality as multiple of the number of columns
Definition: feat.cc:355

FT::Feat::set_corr_delete_mutate
void set_corr_delete_mutate(bool s)
Definition: feat.cc:389

FT::Feat::update_stall_count
void update_stall_count(unsigned &stall_count, bool updated)
updates stall count for early stopping
Definition: feat.cc:754

FT::Feat::get_model
string get_model(bool sort=true)
return best model, in tabular form
Definition: feat.cc:527

FT::Feat::set_gens
void set_gens(int gens)
set size of max generations
Definition: feat.cc:298

FT::Feat::set_split
void set_split(float sp)
set train fraction of dataset
Definition: feat.cc:368

FT::Feat::score
float score(MatrixXf &X, const VectorXf &y, LongData Z=LongData())
scoring function
Definition: feat.cc:1331

FT::Feat::load_best_ind
void load_best_ind(string filename)
load best_ind from file
Definition: feat.cc:1573

FT::Feat::set_dtypes
void set_dtypes(vector< char > dtypes)
set data types for input parameters
Definition: feat.cc:371

FT::Feat::save_pop
int save_pop
controls whether pop is printed each gen
Definition: feat.h:423

FT::Feat::set_erc
void set_erc(bool erc)
flag to set whether to use variable or constants for terminals
Definition: feat.cc:362

FT::Feat::save_to_file
void save_to_file(string filename)
save Feat state to file.
Definition: feat.cc:1614

FT::Feat::starting_pop
string starting_pop
file with starting population
Definition: feat.h:420

FT::Feat::simplify
float simplify
post-run simplification
Definition: feat.h:425

FT::Feat::set_classification
void set_classification(bool classification)
set EProblemType for shogun
Definition: feat.cc:304

FT::Feat::get_split
float get_split()
return fraction of data to use for training
Definition: feat.cc:464

FT::Feat::set_scorer
void set_scorer(string s)
set scoring function
Definition: feat.cc:380

FT::Feat::get_max_depth
int get_max_depth()
return max_depth of programs
Definition: feat.cc:440

FT::Feat::set_fb
void set_fb(float fb)
set feedback
Definition: feat.cc:374

FT::Feat::best_complexity
int best_complexity
complexity of the best model
Definition: feat.h:418

FT::Feat::get_ind_eqn
string get_ind_eqn(bool sort, Individual &ind)
return best model as a single line equation
Definition: feat.cc:480

FT::Feat::load_population
void load_population(string filename, bool justfront=false)
load population from file, optionall just Pareto front
Definition: feat.cc:1579

FT::Feat::set_max_time
void set_max_time(int time)
set max time in seconds for fit method
Definition: feat.cc:406

FT::Feat::min_loss
float min_loss
current best score
Definition: feat.h:415

FT::Feat::set_is_fitted
void set_is_fitted(bool f)
set flag indicating whether fit has been called
Definition: feat.h:107

FT::Feat::pop
Population pop
population of programs
Definition: feat.h:405

FT::Feat::save
json save() const
save and return a json Feat state as string.
Definition: feat.cc:1590

FT::Feat::use_arch
bool use_arch
internal control over use of archive
Definition: feat.h:411

FT::Feat::get_representation
string get_representation()
return best model
Definition: feat.cc:476

FT::Feat::get_coefs
ArrayXf get_coefs()
return the coefficients or importance scores of the best model.
Definition: feat.cc:649

FT::Feat::univariate_initial_model
vector< float > univariate_initial_model(DataRef &d, int n_feats)
Definition: feat.cc:979

FT::Feat::get_n_params
int get_n_params()
get number of parameters in best
Definition: feat.cc:564

FT::Feat::get_otypes
vector< char > get_otypes()
return program output type ('f', 'b')
Definition: feat.cc:434

FT::Feat::get_scorer_
string get_scorer_()
Definition: feat.cc:381

FT::Feat::print_stats
void print_stats(std::ofstream &log, float fraction)
Definition: feat.cc:1431

FT::Feat::set_protected_groups
void set_protected_groups(string pg)
set protected groups for fairness
Definition: feat.cc:410

FT::Feat::set_use_batch
void set_use_batch()
set flag to use batch for training
Definition: feat.cc:408

FT::Feat::set_simplify
void set_simplify(float s)
Definition: feat.cc:387

FT::Feat::initial_model
void initial_model(DataRef &d)
method to fit inital ml model
Definition: feat.cc:1043

FT::Feat::get_erc
bool get_erc()
return boolean value of erc flag
Definition: feat.cc:452

FT::Feat::get_verbosity
int get_verbosity()
return current verbosity level set
Definition: feat.cc:437

FT::Feat::run_generation
void run_generation(unsigned int g, vector< size_t > survivors, DataRef &d, std::ofstream &log, float percentage, unsigned &stall_count)
Definition: feat.cc:675

FT::Feat::transform
MatrixXf transform(MatrixXf &X)
transform an input matrix using a program.
Definition: feat.cc:1142

FT::Feat::val_from_arch
bool val_from_arch
model selection only uses Pareto front
Definition: feat.h:424

FT::Feat::get_classification
bool get_classification()
return type of classification flag set
Definition: feat.cc:428

FT::Feat::best_ind
Individual best_ind
best individual
Definition: feat.h:421

FT::Feat::get_max_stall
int get_max_stall()
return maximum stall in learning, in generations
Definition: feat.cc:431

FT::Feat::predict_archive
VectorXf predict_archive(int id, MatrixXf &X)
predict on unseen data from the whole archive
Definition: feat.cc:1195

FT::Feat::get_stats
nl::json get_stats()
return statistics from the run as a json string
Definition: feat.cc:1566

FT::Feat::load_from_file
void load_from_file(string filename)
load Feat state from file.
Definition: feat.cc:1597

FT::Feat::get_complexity
int get_complexity()
get dimensionality of best
Definition: feat.cc:570

FT::Feat::update_best
bool update_best(const DataRef &d, bool val=false)
updates best score
Definition: feat.cc:1296

FT::Feat::final_model
void final_model(DataRef &d)
fits final model to best transformation
Definition: feat.cc:770

FT::Feat::stats
Log_Stats stats
runtime stats
Definition: feat.h:426

FT::Feat::get_pop_size
int get_pop_size()
return population size
Definition: feat.cc:419

FT::Feat::set_iters
void set_iters(int iters)
Definition: feat.cc:393

FT::Feat::get_eqn
string get_eqn(bool sort=false)
Definition: feat.cc:478

FT::Feat::get_archive
vector< nl::json > get_archive(bool front)
return population as string
Definition: feat.cc:577

FT::Feat::set_pop_size
void set_pop_size(int pop_size)
set size of population
Definition: feat.cc:295

FT::Feat::set_n_jobs
void set_n_jobs(unsigned t)
set number of threads
Definition: feat.cc:404

FT::Feat::variator
Variation variator
variation operators
Definition: feat.h:408

FT::Feat::survival
string survival
stores survival mode
Definition: feat.h:412

FT::Feat::set_hillclimb
void set_hillclimb(bool hc)
Definition: feat.cc:391

FT::Feat::set_otype
void set_otype(char ot)
set program output type ('f', 'b')
Definition: feat.cc:339

FT::Feat::get_Z
LongData get_Z(string s, int *idx, int idx_size)
get longitudinal data from file s
Definition: feat.cc:657

FT::Feat::set_ml
void set_ml(string ml)
set ML algorithm to use
Definition: feat.cc:301

FT::Feat::get_max_dim
int get_max_dim()
return max dimensionality of programs
Definition: feat.cc:449

FT::Feat::set_lr
void set_lr(float lr)
Definition: feat.cc:395

FT::Feat::evaluator
Evaluation evaluator
evaluation code
Definition: feat.h:407

FT::Feat::set_logfile
void set_logfile(string s)
set name for files
Definition: feat.cc:377

FT::Feat::log_stats
void log_stats(std::ofstream &log)
Definition: feat.cc:1536

FT::Feat::predict_labels
shared_ptr< CLabels > predict_labels(MatrixXf &X, LongData Z=LongData())
predict on unseen data. return CLabels.
Definition: feat.cc:1269

FT::Feat::selector
Selection selector
selection algorithm
Definition: feat.h:406

FT::Feat::get_gens
int get_gens()
return size of max generations
Definition: feat.cc:422

FT::Feat::set_shuffle
void set_shuffle(bool sh)
flag to shuffle the input samples for train/test splits
Definition: feat.cc:365

FT::Feat::min_loss_v
float min_loss_v
best validation score
Definition: feat.h:416

FT::Feat::get_n_nodes
int get_n_nodes()
return the number of nodes in the best model
Definition: feat.cc:574

FT::Feat::get_logfile
string get_logfile()
get name
Definition: feat.cc:455

FT::Feat::logfile
string logfile
log filename
Definition: feat.h:422

FT::Feat::params
Parameters params
hyperparameters of Feat
Definition: feat.h:401

FT::Feat::get_ml
string get_ml()
return ML algorithm string
Definition: feat.cc:425

FT::Feat::set_max_dim
void set_max_dim(unsigned int max_dim)
set maximum dimensionality of programs
Definition: feat.cc:349

FT::Feat::get_num_features
int get_num_features()
return number of features
Definition: feat.cc:458

FT::Feat::archive
Archive archive
pareto front archive
Definition: feat.h:410

FT::Feat::set_max_depth
void set_max_depth(unsigned int max_depth)
set max depth of programs
Definition: feat.cc:343

FT::Feat::init
void init()
initialize Feat object for fitting.
Definition: feat.cc:24

FT::Feat::set_verbosity
void set_verbosity(int verbosity)
set level of debug info
Definition: feat.cc:310

FT::Feat::set_survival
void set_survival(string surv)
set survivability
Definition: feat.cc:319

FT::Feat::predict_proba_archive
ArrayXXf predict_proba_archive(int id, MatrixXf &X, LongData &Z)
Definition: feat.cc:1247

FT::Feat::set_cross_rate
void set_cross_rate(float cross_rate)
set cross rate in variation
Definition: feat.cc:326

FT::Feat::set_batch_size
void set_batch_size(int bs)
Definition: feat.cc:397

FT::Feat::get_scorer
string get_scorer()
Definition: feat.cc:382

FT::Feat::get_dtypes
vector< char > get_dtypes()
return data types for input parameters
Definition: feat.cc:470

FT::Feat::survivor
Selection survivor
survival algorithm
Definition: feat.h:409

FT::Feat::get_fb
float get_fb()
get feedback setting
Definition: feat.cc:473

FT::Feat::timer
Timer timer
start time of training
Definition: feat.h:403

FT::Feat::get_shuffle
bool get_shuffle()
return whether option to shuffle the data is set or not
Definition: feat.cc:461

FT::Feat::get_cross_rate
float get_cross_rate()
return cross rate for variation
Definition: feat.cc:443

FT::Feat::predict
VectorXf predict(MatrixXf &X, LongData &Z)
predict on unseen data.
Definition: feat.cc:1184

FT::Feat::simplify_model
void simplify_model(DataRef &d, Individual &)
simplifies final model to best transformation
Definition: feat.cc:786

FT::Feat::N
Normalizer N
scales training data.
Definition: feat.h:413

FT::Feat::fit
void fit(MatrixXf &X, VectorXf &y)
train a model.
Definition: feat.cc:668

FT::Feat::set_max_stall
void set_max_stall(int max_stall)
set maximum stall in learning, in generations
Definition: feat.cc:313

FT::Model::ML
class that specifies the machine learning algorithm to pair with Feat.
Definition: ml.h:80

FT::Model::ML::get_weights
vector< float > get_weights(bool norm_adjust=true) const
Definition: ml.cc:211

FT::Model::ML::fit
shared_ptr< CLabels > fit(const MatrixXf &X, const VectorXf &y, const Parameters &params, bool &pass, const vector< char > &dtypes=vector< char >())
Definition: ml.cc:282

FT::Pop::Individual
individual programs in the population
Definition: individual.h:31

FT::Pop::Individual::get_features
vector< string > get_features()
return vectorized representation of program
Definition: individual.cc:817

FT::Pop::Individual::size
int size() const
return size of program
Definition: individual.cc:93

FT::Pop::Individual::out
MatrixXf out(const Data &d, bool predict=false)
calculate program output matrix Phi
Definition: individual.cc:391

FT::Pop::Individual::yhat
VectorXf yhat
current output
Definition: individual.h:35

FT::Pop::Individual::get_eqn
string get_eqn()
return symbolic representation of program
Definition: individual.cc:748

FT::Pop::Individual::predict_proba
ArrayXXf predict_proba(const Data &d)
Definition: individual.cc:293

FT::Pop::Individual::id
unsigned id
tracking id
Definition: individual.h:53

FT::Pop::Individual::Phi
MatrixXf Phi
transformation output of program
Definition: individual.h:34

FT::Pop::Individual::get_n_params
int get_n_params()
get number of params in program
Definition: individual.cc:96

FT::Pop::Individual::fitness
float fitness
aggregate fitness score
Definition: individual.h:38

FT::Pop::Individual::program
NodeVector program
executable data structure
Definition: individual.h:33

FT::Pop::Individual::ml
shared_ptr< ML > ml
ML model, trained on Phi.
Definition: individual.h:37

FT::Pop::Individual::save
void save(string filename)
save individual as a json object.
Definition: individual.cc:1050

FT::Pop::Individual::predict
shared_ptr< CLabels > predict(const Data &d)
Definition: individual.cc:271

FT::Pop::Individual::fit
shared_ptr< CLabels > fit(const Data &d, const Parameters &params, bool &pass)
fits an ML model to the data after transformation
Definition: individual.cc:234

FT::Pop::Individual::set_id
void set_id(unsigned i)
Definition: individual.cc:112

FT::Pop::Individual::get_complexity
unsigned int get_complexity() const
get the program complexity without updating it.
Definition: individual.cc:109

FT::Pop::Individual::predict_vector
VectorXf predict_vector(const Data &d)
Definition: individual.cc:311

FT::Pop::Individual::load
void load(string filename)
load individual from a file.
Definition: individual.cc:1061

FT::Pop::Individual::get_dim
unsigned int get_dim()
grab sub-tree locations given starting point.
Definition: individual.cc:873

FT::Pop::Individual::fit_tune
shared_ptr< CLabels > fit_tune(const Data &d, const Parameters &params, bool set_default=false)
fits and tunes an ML model to the data after transformation
Definition: individual.cc:1019

FT::Pop::Op::NodeMedian
Definition: n_median.h:15

FT::Util::Logger::log
string log(string m, int v, string sep="\n") const
print message with verbosity control.
Definition: logger.cc:54

FT::Util::Logger::destroy
static void destroy()
Definition: logger.cc:25

FT::Util::Rnd::destroy
static void destroy()
Definition: rnd.cc:33

FT::Util::Rnd::set_seed
void set_seed(int new_seed)
Definition: rnd.cc:41

FT::Util::Timer::Elapsed
std::chrono::duration< float > Elapsed() const
Definition: utils.cc:211

FT::Util::Timer::Reset
void Reset()
Definition: utils.cc:207

FT::Vary::Variation::delete_mutate
void delete_mutate(Individual &child, const Parameters &params)
Definition: variation.cc:359

FT::Vary::Variation::vary
void vary(Population &pop, const vector< size_t > &parents, const Parameters &params, const Data &d)
method to handle variation of population
Definition: variation.cc:40

FT::Vary::Variation::correlation_delete_mutate
bool correlation_delete_mutate(Individual &child, MatrixXf Phi, const Parameters &params, const Data &d)
Definition: variation.cc:465

FT::Vary::Variation::set_cross_rate
void set_cross_rate(float cr)
update cross rate
Definition: variation.cc:14

LongData
std::map< string, std::pair< vector< ArrayXf >, vector< ArrayXf > > > LongData
Definition: data.h:23

THROW_RUNTIME_ERROR
#define THROW_RUNTIME_ERROR(err)
Definition: error.h:30

THROW_INVALID_ARGUMENT
#define THROW_INVALID_ARGUMENT(err)
Definition: error.h:31

__attribute__
void __attribute__((constructor)) ctor()
Definition: feat.cc:9

feat.h

initialize_cuda
#define initialize_cuda()
Definition: feat.h:35

GPU
#define GPU
Definition: feat.h:34

omp_set_num_threads
#define omp_set_num_threads(x)
Definition: init.h:15

FT::Util::my_handler
void my_handler(int s)
handle signals (ctr-c etc.)
Definition: error.cc:43

FT::Util::load_partial_longitudinal
void load_partial_longitudinal(const std::string &path, std::map< string, std::pair< vector< ArrayXf >, vector< ArrayXf > > > &Z, char sep, const vector< int > &idx)
load partial longitudinal csv file into matrix according to idx vector
Definition: io.cc:175

FT::Util::logger
static Logger & logger
Definition: logger.h:46

FT::Util::median
float median(const ArrayXf &v)
calculate median
Definition: utils.cc:89

FT::Util::argsort
vector< size_t > argsort(const vector< T > &v, bool ascending=true)
return indices that sort a vector
Definition: utils.h:81

FT::Util::printProgress
void printProgress(float percentage)
outputs a progress bar, filled according to
Definition: io.cc:15

FT::Util::r
static Rnd & r
Definition: rnd.h:135

FT::Util::to_string
std::string to_string(const T &value)
template function to convert objects to string for logging
Definition: utils.h:422

FT
main Feat namespace
Definition: data.cc:13

FT::i
int i
Definition: params.cc:552

FT::from_json
void from_json(const nl::json &, Feat &)

FT::to_json
void to_json(nl::json &, const Feat &)

shogun
Definition: MulticlassLogisticRegression.cc:15

FT::Parameters::BP::iters
int iters
Definition: params.h:85

FT::Parameters::BP::learning_rate
float learning_rate
Definition: params.h:86

FT::Parameters::BP::batch_size
int batch_size
Definition: params.h:87

FT::Parameters::HC::iters
int iters
Definition: params.h:96

FT::Parameters::use_batch
bool use_batch
whether to use mini batch for training
Definition: params.h:68

FT::Parameters::backprop
bool backprop
turns on backpropagation
Definition: params.h:65

FT::Parameters::set_terminals
void set_terminals(int nf, const LongData &Z)
set the terminals with longitudinal data
Definition: params.cc:659

FT::Parameters::set_sample_weights
void set_sample_weights(VectorXf &y)
sets the weights of each sample (and class weights)
Definition: params.cc:749

FT::Parameters::dtypes
vector< char > dtypes
data types of input parameters
Definition: params.h:55

FT::Parameters::max_size
unsigned int max_size
max size of programs (length)
Definition: params.h:48

FT::Parameters::set_current_gen
void set_current_gen(int g)
sets current generation
Definition: params.cc:109

FT::Parameters::max_dim
unsigned int max_dim
maximum dimensionality of programs
Definition: params.h:49

FT::Parameters::classification
bool classification
flag to conduct classification rather than
Definition: params.h:32

FT::Parameters::max_time
int max_time
max time for fit method
Definition: params.h:67

FT::Parameters::max_stall
int max_stall
maximum stall in learning, in generations
Definition: params.h:33

FT::Parameters::n_jobs
int n_jobs
number of parallel jobs
Definition: params.h:81

FT::Parameters::cross_rate
float cross_rate
cross rate for variation
Definition: params.h:58

FT::Parameters::feedback
float feedback
strength of ml feedback on probabilities
Definition: params.h:56

FT::Parameters::class_weights
vector< float > class_weights
weights for each class
Definition: params.h:60

FT::Parameters::hillclimb
bool hillclimb
turns on parameter hill climbing
Definition: params.h:66

FT::Parameters::n_classes
unsigned int n_classes
number of classes for classification
Definition: params.h:57

FT::Parameters::scorer
string scorer
loss function argument
Definition: params.h:62

FT::Parameters::init
void init(const MatrixXf &X, const VectorXf &y)
Definition: params.cc:82

FT::Parameters::set_otype
void set_otype(char ot)
Definition: params.cc:223

FT::Parameters::erc
bool erc
whether to include constants for terminals
Definition: params.h:50

FT::Parameters::set_max_dim
void set_max_dim(unsigned int max_dim)
set maximum dimensionality of programs
Definition: params.cc:217

FT::Parameters::max_depth
unsigned int max_depth
max depth of programs
Definition: params.h:47

FT::Parameters::gens
int gens
max generations
Definition: params.h:29

FT::Parameters::ml
string ml
machine learner used with Feat
Definition: params.h:31

FT::Parameters::set_max_depth
void set_max_depth(unsigned int max_depth)
set max depth of programs
Definition: params.cc:210

FT::Parameters::pop_size
int pop_size
population size
Definition: params.h:28

FT::Parameters::hc
HC hc
stochastic hill climbing parameters
Definition: params.h:102

FT::Parameters::num_features
unsigned num_features
number of features
Definition: params.h:51

FT::Parameters::verbosity
int verbosity
Definition: params.h:39

FT::Parameters::tune_initial
bool tune_initial
tune initial ML model
Definition: params.h:77

FT::Parameters::current_gen
int current_gen
holds current generation
Definition: params.h:30

FT::Parameters::bp
BP bp
backprop parameters
Definition: params.h:92

FT::Parameters::normalize
bool normalize
whether to normalize the input data
Definition: params.h:75

FT::Parameters::objectives
vector< string > objectives
Pareto objectives.
Definition: params.h:52

FT::Parameters::root_xo_rate
float root_xo_rate
crossover
Definition: params.h:73

FT::Parameters::terminals
NodeVector terminals
terminal nodes available in programs vector storing longitudinal data keys
Definition: params.h:43

FT::Parameters::set_verbosity
void set_verbosity(int verbosity)
set level of debug info
Definition: params.cc:712

FT::Parameters::protected_groups
vector< bool > protected_groups
protected attributes in X
Definition: params.h:76

FT::Parameters::set_protected_groups
void set_protected_groups(string fn)
Definition: params.cc:386

FT::Parameters::otypes
vector< char > otypes
program output types ('f', 'b')
Definition: params.h:34

FT::Parameters::split
float split
fraction of data to use for training
Definition: params.h:54

FT::Parameters::shuffle
bool shuffle
option to shuffle the data
Definition: params.h:53

FT::Parameters::set_term_weights
void set_term_weights(const vector< float > &w)
sets weights for terminals.
Definition: params.cc:144

FT::Parameters::set_scorer
void set_scorer(string sc="", bool initialized=false)
sets scorer type
Definition: params.cc:112

FT::Parameters::tune_final
bool tune_final
tune final ML model string of comma-delimited operator names, used to choose functions
Definition: params.h:78

FT::Parameters::scorer_
string scorer_
actual loss function used, determined by scorer
Definition: params.h:63

FT::Parameters::corr_delete_mutate
bool corr_delete_mutate
use correlation delete mutation
Definition: params.h:72

FT::Parameters::random_state
int random_state
random seed
Definition: params.h:27

FT::Pop::Archive::update
void update(const Population &pop, const Parameters &params)
Definition: archive.cc:76

FT::Pop::Archive::individuals
vector< Individual > individuals
individual programs in the archive
Definition: archive.h:28

FT::Pop::Archive::set_objectives
void set_objectives(vector< string > objectives)
Definition: archive.cc:14

FT::Pop::NodeVector::roots
vector< size_t > roots() const
returns indices of root nodes
Definition: nodevector.cc:55

FT::Pop::NodeVector::subtree
size_t subtree(size_t i, char otype='0', string indent="> ") const
Definition: nodevector.cc:80

FT::Pop::Population
Defines a population of programs and functions for constructing them.
Definition: population.h:28

FT::Pop::Population::load
void load(string filename)
Definition: population.cc:165

FT::Pop::Population::update
void update(vector< size_t > survivors)
reduce programs to the indices in survivors.
Definition: population.cc:97

FT::Pop::Population::print_eqns
string print_eqns(bool just_offspring=false, string sep="\n")
return population equations.
Definition: population.cc:121

FT::Pop::Population::size
int size()
returns population size
Definition: population.cc:31

FT::Pop::Population::sorted_front
vector< size_t > sorted_front(unsigned)
return complexity-sorted Pareto front indices.
Definition: population.cc:135

FT::Pop::Population::init
void init(const Individual &starting_model, const Parameters &params, bool random=false, string filename="")
initialize population of programs with a starting model and/or from file
Definition: population.cc:38

FT::Pop::Population::individuals
vector< Individual > individuals
individual programs
Definition: population.h:29

FT::Pop::Population::save
void save(string filename)
Definition: population.cc:150

FT::Sel::Selection
interfaces with selection operators.
Definition: selection.h:36

FT::Sel::Selection::get_type
string get_type()
return type of selectionoperator
Definition: selection.cc:55

FT::Sel::Selection::survive
vector< size_t > survive(Population &pop, const Parameters &params, const Data &d)
perform survival
Definition: selection.cc:68

FT::Sel::Selection::select
vector< size_t > select(Population &pop, const Parameters &params, const Data &d)
perform selection
Definition: selection.cc:61

FT::Util::Log_Stats
Definition: utils.h:382

FT::Util::Log_Stats::med_size
vector< unsigned > med_size
Definition: utils.h:389

FT::Util::Log_Stats::med_loss_v
vector< float > med_loss_v
Definition: utils.h:388

FT::Util::Log_Stats::med_num_params
vector< unsigned > med_num_params
Definition: utils.h:391

FT::Util::Log_Stats::med_dim
vector< unsigned > med_dim
Definition: utils.h:392

FT::Util::Log_Stats::update
void update(int index, float timer_count, float bst_score, float bst_score_v, float md_score, float md_loss_v, unsigned md_size, unsigned md_complexity, unsigned md_num_params, unsigned md_dim)
Definition: utils.cc:274

FT::Util::Log_Stats::min_loss
vector< float > min_loss
Definition: utils.h:385

FT::Util::Log_Stats::med_complexity
vector< unsigned > med_complexity
Definition: utils.h:390

FT::Util::Log_Stats::med_loss
vector< float > med_loss
Definition: utils.h:387

FT::Util::Normalizer
normalizes a matrix to unit variance, 0 mean centered.
Definition: utils.h:147

FT::Util::Normalizer::fit_normalize
void fit_normalize(MatrixBase< T > &X, const vector< char > &dtypes)
fit then normalize
Definition: utils.h:315

FT::Util::Normalizer::normalize
void normalize(MatrixBase< T > &X) const
normalize matrix.
Definition: utils.h:191