1.16.1

yangheng95 · yangheng95 · commit 7c86949de148 · 2022-07-07T02:22:16.000+01:00
diff --git a/demos/aspect_term_extraction/checkpoints-v1.16.json b/demos/aspect_term_extraction/checkpoints-v1.16.json
diff --git a/demos/aspect_term_extraction/deploy_demo.py b/demos/aspect_term_extraction/deploy_demo.py
@@ -5,19 +5,17 @@
 from findfile import find_files
 
 from pyabsa import ATEPCCheckpointManager
-from pyabsa.functional.dataset.dataset_manager import download_datasets_from_github, ABSADatasetList
+from pyabsa.functional.dataset.dataset_manager import download_datasets_from_github, ABSADatasetList, detect_infer_dataset
 
 download_datasets_from_github(os.getcwd())
 
+dataset_items = {dataset.name: dataset for dataset in ABSADatasetList()}
 
 def get_example(dataset):
-    filter_key_words = ['.py', '.md', 'readme', 'log', 'result', 'zip', '.state_dict', '.model', '.png', 'acc_', 'f1_', '.origin', '.adv', '.csv']
-    dataset_file = {'train': [], 'test': [], 'valid': []}
-    search_path = './'
-    task = 'apc_datasets'
-    dataset_file['test'] += find_files(search_path, [dataset, 'test', task, '.inference'], exclude_key=['.adv', '.org', '.defense', 'train.'] + filter_key_words)
+    task = 'apc'
+    dataset_file = detect_infer_dataset(dataset_items[dataset], task)
 
-    for fname in dataset_file['test']:
+    for fname in dataset_file:
         lines = []
         if isinstance(fname, str):
             fname = [fname]
@@ -33,7 +31,7 @@ def get_example(dataset):
 
 
 dataset_dict = {dataset.name: get_example(dataset.name) for dataset in ABSADatasetList()}
-aspect_extractor = ATEPCCheckpointManager.get_aspect_extractor(checkpoint='english')
+aspect_extractor = ATEPCCheckpointManager.get_aspect_extractor(checkpoint='multilingual')
 
 
 def perform_inference(text, dataset):
@@ -70,6 +68,7 @@ def perform_inference(text, dataset):
             gr.Markdown("You can find the datasets at [github.com/yangheng95/ABSADatasets](https://github.com/yangheng95/ABSADatasets/tree/v1.2/datasets/text_classification)")
             dataset_ids = gr.Radio(choices=[dataset.name for dataset in ABSADatasetList()[:-1]], value='Laptop14', label="Datasets")
             inference_button = gr.Button("Let's go!")
+            gr.Markdown("There is a [demo](https://huggingface.co/spaces/yangheng/PyABSA-ATEPC-Chinese) specialized for the Chinese langauge")
             gr.Markdown("This demo support many other language as well, you can try and explore the results of other languages by yourself.")
 
         with gr.Column():
diff --git a/demos/aspect_term_extraction/extract_aspects_multilingual.py b/demos/aspect_term_extraction/extract_aspects_multilingual.py
@@ -5,7 +5,7 @@
 # github: https://github.com/yangheng95
 # Copyright (C) 2021. All Rights Reserved.
 
-from pyabsa import ATEPCCheckpointManager, available_checkpoints
+from pyabsa import ATEPCCheckpointManager, available_checkpoints, ABSADatasetList
 
 checkpoint_map = available_checkpoints(from_local=False)
 
@@ -25,6 +25,7 @@
 # 从Google Drive下载提供的预训练模型
 aspect_extractor = ATEPCCheckpointManager.get_aspect_extractor(checkpoint='multilingual')
 
+examples = ABSADatasetList.Phone
 atepc_result = aspect_extractor.extract_aspect(inference_source=examples,  # list-support only, for current
                                                print_result=True,  # print the result
                                                pred_sentiment=True,  # Predict the sentiment of extracted aspect terms
diff --git a/pyabsa/__init__.py b/pyabsa/__init__.py
@@ -7,7 +7,7 @@
 # Copyright (C) 2021. All Rights Reserved.
 
 
-__version__ = '1.16.0'
+__version__ = '1.16.1'
 
 __name__ = 'pyabsa'
 
diff --git a/pyabsa/functional/checkpoint/checkpoint_manager.py b/pyabsa/functional/checkpoint/checkpoint_manager.py
@@ -101,10 +101,6 @@ def get_aspect_extractor(checkpoint: str = None,
 
         :param checkpoint: zipped checkpoint name, or checkpoint path or checkpoint name queried from google drive
         This param is for someone wants to load a checkpoint not registered in PyABSA
-        :param sentiment_map: label to text index map (deprecated and has no effect)
-        :param auto_device: True or False, otherwise 'cuda', 'cpu' works
-        :param eval_batch_size: eval batch_size in modeling
-
         :return:
         """
         if os.path.exists(checkpoint):
diff --git a/pyabsa/functional/dataset/dataset_manager.py b/pyabsa/functional/dataset/dataset_manager.py
@@ -54,7 +54,7 @@ class ABSADatasetList(list):
     Restaurant16 = DatasetItem('Restaurant16', '116.Restaurant16')
 
     # Twitter
-    ACL_Twitter = DatasetItem('Twitter', '101.Twitter')
+    ACL_Twitter = DatasetItem('Twitter', '101.ACL_Twitter')
 
     MAMS = DatasetItem('MAMS', '109.MAMS')
 
@@ -83,7 +83,7 @@ class ABSADatasetList(list):
     # assembled dataset
     Chinese = DatasetItem('Chinese', ['107.Phone', '103.Camera', '106.Notebook', '104.Car', '105.MOOC'])
     Binary_Polarity_Chinese = DatasetItem('Chinese', ['107.Phone', '103.Camera', '106.Notebook', '104.Car'])
-    Triple_Polarity_Chinese = DatasetItem('Chinese', ['105.MOOC'])
+    Triple_Polarity_Chinese = DatasetItem('Chinese3way', ['105.MOOC'])
 
     SemEval2016Task5 = DatasetItem('SemEval2016Task5', ['120.SemEval2016Task5'])
     Arabic_SemEval2016Task5 = DatasetItem('Arabic_SemEval2016Task5', ['122.Arabic'])
@@ -92,10 +92,10 @@ class ABSADatasetList(list):
     Turkish_SemEval2016Task5 = DatasetItem('Turkish_SemEval2016Task5', ['128.Turkish'])
     Russian_SemEval2016Task5 = DatasetItem('Russian_SemEval2016Task5', ['126.Russian'])
     French_SemEval2016Task5 = DatasetItem('French_SemEval2016Task5', ['125.French'])
-    English_SemEval2016Task5 = DatasetItem('English_SemEval2016Task5', ['125.English'])
+    English_SemEval2016Task5 = DatasetItem('English_SemEval2016Task5', ['124.English'])
 
-    English = DatasetItem('English', ['Laptop14', 'Restaurant14', 'Restaurant16', 'ACL_Twitter',
-                                      'MAMS', 'Television', 'TShirt', 'Yelp', 'MOOC_En'])
+    English = DatasetItem('English', ['113.Laptop14', '114.Restaurant14', '116.Restaurant16', '101.ACL_Twitter',
+                                      '109.MAMS', '117.Television', '118.TShirt', '119.Yelp', '121.MOOC_En'])
 
     # Abandon rest15 dataset due to data leakage, See https://github.com/yangheng95/PyABSA/issues/53
     SemEval = DatasetItem('SemEval', ['113.Laptop14', '114.Restaurant14', '116.Restaurant16'])
@@ -108,11 +108,11 @@ def __init__(self):
         dataset_list = [
             self.Laptop14, self.Restaurant14, self.Restaurant15, self.Restaurant16,
             self.ACL_Twitter, self.MAMS, self.Television, self.TShirt,
-            self.Phone, self.Car, self.Notebook, self.Camera,
-            self.Binary_Polarity_Chinese, self.Triple_Polarity_Chinese,
-            self.Shampoo, self.MOOC, self.MOOC_En,
-            self.English, self.SemEval,
-            self.Restaurant, self.Multilingual
+            self.Phone, self.Car, self.Notebook, self.Camera, self.MOOC, self.MOOC_En,
+            self.Chinese, self.Arabic_SemEval2016Task5, self.Dutch_SemEval2016Task5,
+            self.Spanish_SemEval2016Task5, self.Turkish_SemEval2016Task5, self.Russian_SemEval2016Task5,
+            self.French_SemEval2016Task5, self.English_SemEval2016Task5,
+            self.English, self.SemEval, self.Restaurant, self.Multilingual
         ]
         super().__init__(dataset_list)
 
diff --git a/release-note.json b/release-note.json
@@ -1,4 +1,7 @@
 {
+  "1.16.1": {
+    "1": "fix some DatasetItem"
+  },
   "1.16.0": {
     "1": "Fix a checkpoint downloading and inflation bug which prevents loading a checkpoint from huggingface spaces",
     "2": "Fix a important bug which cause unexpected low performance when performing ATEPC inference for Chinese language (and possibly other non-latin languages)",

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,7 @@`
`1`	`1`	`{`
	`2`	`+ "1.16.1": {`
	`3`	`+ "1": "fix some DatasetItem"`
	`4`	`+ },`
`2`	`5`	`"1.16.0": {`
`3`	`6`	`"1": "Fix a checkpoint downloading and inflation bug which prevents loading a checkpoint from huggingface spaces",`
`4`	`7`	`"2": "Fix a important bug which cause unexpected low performance when performing ATEPC inference for Chinese language (and possibly other non-latin languages)",`