SijanC147
diff --git a/‎.gitignore
+1 b/‎.gitignore
+1
diff --git a/‎.vscode/settings.json
+2-2 b/‎.vscode/settings.json
+2-2
diff --git a/‎external/Nakov2016/parser_clean.py
+26 b/‎external/Nakov2016/parser_clean.py
+26
diff --git a/‎gcp/_config.json
+4-3 b/‎gcp/_config.json
+4-3
diff --git a/‎generate_boxplots.py
+55-26 b/‎generate_boxplots.py
+55-26
diff --git a/‎studies/_archive/default.backupmay14.batch.txt
+13 b/‎studies/_archive/default.backupmay14.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt0b1.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt0b1.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt0b10.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt0b10.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt0b100.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt0b100.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt0b1000.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt0b1000.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt1b10.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt1b10.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt1b100.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt1b100.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt1b1000.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt1b1000.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt2b1.trnbalanced.batch.txt
+12 b/‎studies/custom_oovs/oovt2b1.trnbalanced.batch.txt
+12
diff --git a/‎studies/custom_oovs/oovt2b10.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt2b10.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt2b100.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt2b100.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt2b1000.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt2b1000.trnbalanced.batch.txt
+13
diff --git a/‎studies/custom_oovs/oovt3b1.trnbalanced.batch.txt
+14 b/‎studies/custom_oovs/oovt3b1.trnbalanced.batch.txt
+14
diff --git a/‎studies/custom_oovs/oovt3b10.trnbalanced.batch.txt
+13 b/‎studies/custom_oovs/oovt3b10.trnbalanced.batch.txt
+13
@@ -109,5 +109,6 @@ data/glove.twitter.27B.100d.txt
 .DS_Store
 _debug.py
 _batch_job.py
+_jupyter_debug.py
 figures
 jobs
@@ -1,5 +1,4 @@
 {
-  "python.pythonPath": "/Users/seanbugeja/.virtualenvs/msc/bin/python",
   "files.exclude": {
     "**/.git": true,
     "**/.svn": true,
@@ -154,5 +153,6 @@
       ]
     }
   },
-  "kite.showWelcomeNotificationOnStartup": false
+"kite.showWelcomeNotificationOnStartup": false,
+"python.languageServer": "Microsoft"
 }
@@ -0,0 +1,26 @@
+import re
+from csv import DictReader
+
+
+def nakov_parser(path):
+    sentences = []
+    targets = []
+    labels = []
+    with open(path, "r") as file:
+        reader = DictReader(
+            file,
+            dialect="excel-tab",
+            fieldnames=["tweet_id", "target", "sentiment", "sentence"],
+        )
+        for row in reader:
+            sentence, target = row["sentence"], row["target"]
+            if len(re.findall(r"\b{}\b"format(target), sentence, re.IGNORECASE)) > 1:
+                continue
+            sentences.append(sentence)
+            targets.append(target)
+            labels.append(
+                {"2": 1, "1": 1, "0": 0, "-1": -1, "-2": -1}.get(
+                    row["sentiment"]
+                )
+            )
+    return sentences, targets, labels
@@ -1,5 +1,5 @@
 {
-    "jobId": "tdlstm_cc42_laptops_balanced_missing_run02",
+    "jobId": "tdlstm_cc840_nakexptrnbal_oovt3b10_run06",
     "labels": {},
     "trainingInput": {
         "scaleTier": "CUSTOM",
@@ -9,12 +9,13 @@
         "region": "europe-west1",
         "args": [
             "batch",
-            "missing2.batch.txt",
+            "oovt3b10.trnbalanced.batch.txt",
             "--new",
             "--nocolor",
             "--defaults",
             "-m=td_lstm",
-            "-em=commoncrawl-42[corpus]"
+            "-em=commoncrawl-840[corpus]",
+            "-ds=nakov-clean[33/34/33]"
         ]
     }
 }
@@ -92,14 +92,19 @@
     "ian": {
         # ! Scores from original paper
         "Dehong Ma et al. 2017 (Original)": {
-            "laptops": {"Micro-F1": 74.49, "Macro-F1": 71.35},
-            "restaurants": {"Micro-F1": 80.23, "Macro-F1": 70.8},
-        },
-        # ! Scores from LCR-ROT
-        "Zheng et al. 2018": {
             "laptops": {"Micro-F1": 72.1},
             "restaurants": {"Micro-F1": 78.6},
         },
+        # # ! Scores from LCR-ROT
+        # "Zheng et al. 2018": {
+        #     "laptops": {"Micro-F1": 72.1},
+        #     "restaurants": {"Micro-F1": 78.6},
+        # },
+        # ! Scores from https://arxiv.org/abs/2005.06607
+        "Navonil et al. 2020": {
+            "laptops": {"Macro-F1": 64.86},
+            "restaurants": {"Macro-F1": 66.41},
+        },
     },
     "ram": {
         # ! Scores from original paper
@@ -209,11 +214,18 @@
     "ram": "RAM",
 }
 
+# EMBEDDINGS = {
+#     "cc42": "GloVe CommonCrawl 42b (300d)",
+#     "cc840": "GloVe CommonCrawl 840b (300d)",
+#     "t200": "GloVe Twitter (200d)",
+#     "t100": "GloVe Twitter (100d)",
+# }
+
 EMBEDDINGS = {
-    "cc42": "GloVe CommonCrawl 42b (300d)",
-    "cc840": "GloVe CommonCrawl 840b (300d)",
-    "t200": "GloVe Twitter (200d)",
-    "t100": "GloVe Twitter (100d)",
+    "cc840": "300d 840b CommonCrawl GloVe ",
+    "cc42": "300d 42b CommonCrawl GloVe",
+    "t200": "200d Twitter GloVe",
+    "t100": "100d Twitter GloVe",
 }
 
 METRIC_COLS = {
@@ -290,12 +302,28 @@ def get_comet_api(api_key=None, **kwargs):
     return api
 
 
-def get_metric_series(experiment, metric_cmt_key):
-    return {
-        v["epoch"]: float(v["metricValue"])
-        for v in experiment.get_metrics()
-        if v["metricName"] == metric_cmt_key
-    }
+# DEPRECATED, need to use metrics_for_chart now
+# def get_metric_series(experiment, metric_cmt_key):
+#     return {
+#         v["epoch"]: float(v["metricValue"])
+#         for v in experiment.get_metrics()
+#         if v["metricName"] == metric_cmt_key
+#     }
+
+
+def get_metric_series(experiment, metric_cmt_key, api):
+    series_data_full = api.get_metrics_for_chart(
+        experiment_keys=[experiment.id], metrics=[metric_cmt_key]
+    )
+    metric_series_data = [
+        {
+            ep: float(val)
+            for (ep, val) in zip(metrics["epochs"], metrics["values"])
+        }
+        for metrics in series_data_full[experiment.id]["metrics"]
+        if metrics["metricName"] == metric_cmt_key
+    ]
+    return metric_series_data[0]
 
 
 def get_grouped_metric_series(project, metrics, workspace=None, **kwargs):
@@ -319,7 +347,7 @@ def get_grouped_metric_series(project, metrics, workspace=None, **kwargs):
                 "experiments": [e for e in experiments if e.name == name],
                 **{
                     metric_cmt_key: [
-                        get_metric_series(e, metric_cmt_key)
+                        get_metric_series(e, metric_cmt_key, api)
                         for e in experiments
                         if e.name == name
                     ]
@@ -480,14 +508,14 @@ def comet_to_df(workspace, models=None, metrics=None, **kwargs):
                     "fasttext-wiki-news-subwords-300": "FastText (300d)",
                     "glove-twitter-25": "GloVe Twitter (25d)",
                     "glove-twitter-50": "GloVe Twitter (50d)",
-                    "glove-twitter-100": "GloVe Twitter (100d)",
-                    "glove-twitter-200": "GloVe Twitter (200d)",
+                    "glove-twitter-100": EMBEDDINGS["t100"],
+                    "glove-twitter-200": EMBEDDINGS["t200"],
                     "glove-wiki-gigaword-50": "GloVe Wiki (50d)",
                     "glove-wiki-gigaword-100": "GloVe Wiki (100d)",
                     "glove-wiki-gigaword-200": "GloVe Wiki (200d)",
                     "glove-wiki-gigaword-300": "GloVe Wiki (300d)",
-                    "glove-cc42-300": "GloVe CommonCrawl 42b (300d)",
-                    "glove-cc840-300": "GloVe CommonCrawl 840b (300d)",
+                    "glove-cc42-300": EMBEDDINGS["cc42"],
+                    "glove-cc840-300": EMBEDDINGS["cc840"],
                     "word2vec-google-news-300": "Word2Vec Google News (300d)",
                     "word2vec-ruscorpora-300": "Word2Vec Rus Corpora (300d)",
                 }.get(embedding_info["name"])
@@ -497,12 +525,13 @@ def comet_to_df(workspace, models=None, metrics=None, **kwargs):
                 exp_name_str = exp_name_str.replace(ds_name, "")
                 exp_name_str = exp_name_str.replace("balanced", "")
                 exp_name_str = exp_name_str.replace(
-                    {
-                        "GloVe CommonCrawl 42b (300d)": "cc42",
-                        "GloVe CommonCrawl 840b (300d)": "cc840",
-                        "GloVe Twitter (100d)": "t100",
-                        "GloVe Twitter (200d)": "t200",
-                    }.get(embedding_str),
+                    {v: k for k, v in EMBEDDINGS.items()}.get(embedding_str),
+                    # {
+                    #     "GloVe CommonCrawl 42b (300d)": "cc42",
+                    #     "GloVe CommonCrawl 840b (300d)": "cc840",
+                    #     "GloVe Twitter (100d)": "t100",
+                    #     "GloVe Twitter (200d)": "t200",
+                    # }.get(embedding_str),
                     "",
                 )
                 exp_name_str = exp_name_str.replace("-", " ")
 
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=reproduction-new
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=1 oov_buckets=1 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..default
+
+### Missing TDLSTM Runs
+#-contd=tdlstm-09momentum-cc42-laptops-01lr-oovt1b1 -mp optimizer=momentum momentum=0.9 learning_rate=0.1
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=0 oov_buckets=1 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=0 oov_buckets=10 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=0 oov_buckets=100 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=0 oov_buckets=1000 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=1 oov_buckets=10 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=1 oov_buckets=100 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=1 oov_buckets=1000 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,12 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=2 oov_buckets=1 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=2 oov_buckets=10 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=2 oov_buckets=100 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=2 oov_buckets=1000 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
@@ -0,0 +1,14 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=3 oov_buckets=1 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
+
@@ -0,0 +1,13 @@
+### Comet Config
+default: -cmt=T1NrVnn32dXWeOxeQWGArkHwc -wrk=oov-policies
+### Turn off metadata for performance
+default: -aux metadata=False
+### OOV Policy
+default: -mp oov_train=3 oov_buckets=10 oov_fn=uniform[-0.1,0.1]
+
+### Run with default parameters
+-contd=..nakovexp_trnbal
+-contd=..nakovexp_trnbal -mp hidden_units=300
+-contd=..nakovexp_trnbal -mp learning_rate=0.1
+-contd=..nakovexp_trnbal -mp hidden_units=300 learning_rate=0.1
+
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,4 @@`
`1`	`1`	`{`
`2`		`- "python.pythonPath": "/Users/seanbugeja/.virtualenvs/msc/bin/python",`
`3`	`2`	`"files.exclude": {`
`4`	`3`	`"**/.git": true,`
`5`	`4`	`"**/.svn": true,`
`@@ -154,5 +153,6 @@`
`154`	`153`	`]`
`155`	`154`	`}`
`156`	`155`	`},`
`157`		`- "kite.showWelcomeNotificationOnStartup": false`
	`156`	`+"kite.showWelcomeNotificationOnStartup": false,`
	`157`	`+"python.languageServer": "Microsoft"`
`158`	`158`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`{`
`2`		`- "jobId": "tdlstm_cc42_laptops_balanced_missing_run02",`
	`2`	`+ "jobId": "tdlstm_cc840_nakexptrnbal_oovt3b10_run06",`
`3`	`3`	`"labels": {},`
`4`	`4`	`"trainingInput": {`
`5`	`5`	`"scaleTier": "CUSTOM",`
`@@ -9,12 +9,13 @@`
`9`	`9`	`"region": "europe-west1",`
`10`	`10`	`"args": [`
`11`	`11`	`"batch",`
`12`		`- "missing2.batch.txt",`
	`12`	`+ "oovt3b10.trnbalanced.batch.txt",`
`13`	`13`	`"--new",`
`14`	`14`	`"--nocolor",`
`15`	`15`	`"--defaults",`
`16`	`16`	`"-m=td_lstm",`
`17`		`- "-em=commoncrawl-42[corpus]"`
	`17`	`+ "-em=commoncrawl-840[corpus]",`
	`18`	`+ "-ds=nakov-clean[33/34/33]"`
`18`	`19`	`]`
`19`	`20`	`}`
`20`	`21`	`}`