gdmix-workflow/test/resources/detext-movieLens.yaml

{
  "output_dir": "detext-training",
  "fixed_effect_config": {
    "global": {
      "ftr_ext": "cnn",
      "ltr_loss_fn": "pointwise",
      "learning_rate": 0.002,
      "num_classes": 1,
      "max_len": 16,
      "min_len": 3,
      "num_filters": 50,
      "num_train_steps": 1000,
      "num_units": 64,
      "optimizer": "adamw",
      "pmetric": "auc",
      "steps_per_stats": 10,
      "steps_per_eval": 100,
      "train_batch_size": 64,
      "test_batch_size": 64,
      "vocab_file": "movieLens/detext/vocab.txt",
      "resume_training": false,
      "train_file": "movieLens/detext/trainingData",
      "dev_file": "movieLens/detext/validationData",
      "test_file": "movieLens/detext/validationData",
      "keep_checkpoint_max": 1,
      "distribution_strategy": "one_device",
      "task_type": "binary_classification",
      "sparse_ftrs_column_names": "wide_ftrs_sp",
      "doc_text_column_names": "doc_query",
      "nums_sparse_ftrs": 100,
      "num_gpu": 0,
      gdmix_config: &g {
        # GDMixParams
        "model_type": "detext",

        # SchemaParams
        "label_column_name": "response",
        "weight_column_name": "weight",
        "uid_column_name": "uid",
        "prediction_score_column_name": "predictionScore"
      },
    },
  },
  "random_effect_config": {
    "per-user": {
      "partition_entity": "user_id",
      "training_data_dir": "movieLens/per_user/trainingData",
      "validation_data_dir": "movieLens/per_user/validationData",
      "feature_file": "movieLens/per_user/featureList/per_user",

      "feature_bag": "per_user",
      "metadata_file": "movieLens/per_user/metadata/tensor_metadata.json",
      "l2_reg_weight": 1.0,
      "regularize_bias": false,

      "lbfgs_tolerance": 1.0e-12,
      "num_of_lbfgs_iterations": 100,
      "num_of_lbfgs_curvature_pairs": 10,
      "max_training_queue_size": 10,
      "num_of_consumers": 1,
      "enable_local_indexing": false,

      # extra params
      "num_partitions": 1,

      gdmix_config: &g_r {
        <<: *g,
        "model_type": "logistic_regression",
      },
    },
    "per-movie": {
      "partition_entity": "movie_id",
      "training_data_dir": "movieLens/per_movie/trainingData",
      "validation_data_dir": "movieLens/per_movie/validationData",
      "feature_file": "movieLens/per_movie/featureList/per_movie",

      "feature_bag": "per_movie",
      "metadata_file": "movieLens/per_movie/metadata/tensor_metadata.json",
      "l2_reg_weight": 1.0,
      "regularize_bias": false,
      "num_partitions": 1,

      "lbfgs_tolerance": 1.0e-12,
      "num_of_lbfgs_iterations": 100,
      "num_of_lbfgs_curvature_pairs": 10,

      "max_training_queue_size": 10,
      "num_of_consumers": 1,
      "enable_local_indexing": false,

      gdmix_config: *g_r,
    }
  },
  # configs for dstributed runs, will be ignored by single-node runs
  "spark_config":{
    "executorInstances":2,
    "executorCores":1,
    "driverMemory":"1g",
    "executorMemory":"1g"
  },
  "tfjob_config":{
    "workerType":"gpu",
    "needChief":false,
    "psNum":1,
    "evaluatorNum":0,
    "workerNum":2,
    "memorySize":"1g"
  }
}