ccssu
diff --git a/‎configs/bert_large_pretrain.py
+2 b/‎configs/bert_large_pretrain.py
+2
diff --git a/‎configs/common/data/bert_dataset.py
+22 b/‎configs/common/data/bert_dataset.py
+22
diff --git a/‎configs/common/data/gpt_dataset.py
+18 b/‎configs/common/data/gpt_dataset.py
+18
diff --git a/‎configs/common/data/roberta_dataset.py
+22-1 b/‎configs/common/data/roberta_dataset.py
+22-1
diff --git a/‎configs/common/data/t5_dataset.py
+22-1 b/‎configs/common/data/t5_dataset.py
+22-1
diff --git a/‎configs/gpt2_pretrain.py
+2 b/‎configs/gpt2_pretrain.py
+2
diff --git a/‎configs/roberta_pretrain.py
+2 b/‎configs/roberta_pretrain.py
+2
diff --git a/‎configs/t5_large_pretrain.py
+2 b/‎configs/t5_large_pretrain.py
+2
diff --git a/‎dev/model_loader_test.sh
+8-8 b/‎dev/model_loader_test.sh
+8-8
diff --git a/‎docs/source/notes/How_to_load_huggingface's_pretrained_model_in_libai.md
+2-2 b/‎docs/source/notes/How_to_load_huggingface's_pretrained_model_in_libai.md
+2-2
diff --git a/‎docs/source/tutorials/basics/Features.md
-2 b/‎docs/source/tutorials/basics/Features.md
-2
diff --git a/‎docs/source/tutorials/basics/Preprocessing_Dataset.md
+1-1 b/‎docs/source/tutorials/basics/Preprocessing_Dataset.md
+1-1
diff --git a/‎libai/inference/basic.py
+1-1 b/‎libai/inference/basic.py
+1-1
diff --git a/‎libai/layers/__init__.py
+2 b/‎libai/layers/__init__.py
+2
diff --git a/‎libai/layers/conv.py
+127 b/‎libai/layers/conv.py
+127
diff --git a/‎libai/models/utils/__init__.py
+7-7 b/‎libai/models/utils/__init__.py
+7-7
diff --git a/‎libai/models/utils/model_utils/README.md ‎libai/models/utils/model_loader/README.md b/‎libai/models/utils/model_utils/README.md ‎libai/models/utils/model_loader/README.md
diff --git a/‎libai/models/utils/model_utils/__init__.py ‎libai/models/utils/model_loader/__init__.py b/‎libai/models/utils/model_utils/__init__.py ‎libai/models/utils/model_loader/__init__.py
diff --git a/‎libai/models/utils/model_utils/base_loader.py ‎libai/models/utils/model_loader/base_loader.py
+1-1 b/‎libai/models/utils/model_utils/base_loader.py ‎libai/models/utils/model_loader/base_loader.py
+1-1
diff --git a/‎libai/models/utils/model_utils/bert_loader.py ‎libai/models/utils/model_loader/bert_loader.py b/‎libai/models/utils/model_utils/bert_loader.py ‎libai/models/utils/model_loader/bert_loader.py
diff --git a/‎libai/models/utils/model_utils/gpt_loader.py ‎libai/models/utils/model_loader/gpt_loader.py b/‎libai/models/utils/model_utils/gpt_loader.py ‎libai/models/utils/model_loader/gpt_loader.py
diff --git a/‎libai/models/utils/model_utils/roberta_loader.py ‎libai/models/utils/model_loader/roberta_loader.py b/‎libai/models/utils/model_utils/roberta_loader.py ‎libai/models/utils/model_loader/roberta_loader.py
diff --git a/‎libai/models/utils/model_utils/swin_loader.py ‎libai/models/utils/model_loader/swin_loader.py b/‎libai/models/utils/model_utils/swin_loader.py ‎libai/models/utils/model_loader/swin_loader.py
diff --git a/‎libai/models/utils/model_utils/swinv2_loader.py ‎libai/models/utils/model_loader/swinv2_loader.py b/‎libai/models/utils/model_utils/swinv2_loader.py ‎libai/models/utils/model_loader/swinv2_loader.py
diff --git a/‎libai/models/utils/model_utils/vit_loader.py ‎libai/models/utils/model_loader/vit_loader.py b/‎libai/models/utils/model_utils/vit_loader.py ‎libai/models/utils/model_loader/vit_loader.py
@@ -12,6 +12,8 @@
 tokenization.tokenizer.vocab_file = vocab_file
 dataloader.train.dataset[0].data_prefix = data_prefix
 dataloader.train.dataset[0].indexed_dataset.data_prefix = data_prefix
+dataloader.test[0].dataset.data_prefix = data_prefix
+dataloader.test[0].dataset.indexed_dataset.data_prefix = data_prefix
 
 # Bert-large model config
 model.cfg.num_attention_heads = 16
 
@@ -42,3 +42,25 @@
     weights=[1.0],
     num_workers=4,
 )
+
+dataloader.test = [
+    LazyCall(build_nlp_test_loader)(
+        dataset=LazyCall(BertDataset)(
+            name="bert",
+            data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
+            indexed_dataset=LazyCall(get_indexed_dataset)(
+                data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
+                data_impl="mmap",
+                skip_warmup=False,
+            ),
+            max_num_samples=10,
+            max_seq_length=512,
+            mask_lm_prob=0.15,
+            short_seq_prob=0.1,
+            binary_head=True,
+            seed=1234,
+            masking_style="bert-cn-wwm",
+        ),
+        test_batch_size=4,
+    )
+]
@@ -39,3 +39,21 @@
     weights=[1.0],
     num_workers=4,
 )
+
+dataloader.test = [
+    LazyCall(build_nlp_test_loader)(
+        dataset=LazyCall(GPT2Dataset)(
+            name="gpt-2",
+            data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
+            indexed_dataset=LazyCall(get_indexed_dataset)(
+                data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
+                data_impl="mmap",
+                skip_warmup=False,
+            ),
+            max_seq_length=1024,
+            max_num_samples=10,
+            seed=1234,
+        ),
+        test_batch_size=4,
+    )
+]
@@ -27,7 +27,7 @@
                 data_impl="mmap",
                 skip_warmup=False,
             ),
-            max_seq_length=512,
+            max_seq_length=514,
             mask_lm_prob=0.15,
             short_seq_prob=0.0,
             seed=1234,
@@ -39,3 +39,24 @@
     weights=[1.0],
     num_workers=4,
 )
+
+dataloader.test = [
+    LazyCall(build_nlp_test_loader)(
+        dataset=LazyCall(RobertaDataset)(
+            name="roberta",
+            data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
+            indexed_dataset=LazyCall(get_indexed_dataset)(
+                data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
+                data_impl="mmap",
+                skip_warmup=False,
+            ),
+            max_num_samples=10,
+            max_seq_length=514,
+            mask_lm_prob=0.15,
+            short_seq_prob=0.1,
+            seed=1234,
+            masking_style="bert",
+        ),
+        test_batch_size=4,
+    )
+]
@@ -33,7 +33,7 @@
             name="t5",
             data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
             indexed_dataset=LazyCall(get_indexed_dataset)(
-                data_prefix="/workspace/data/libai_dataset/" "/loss_compara_content_sentence",
+                data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
                 data_impl="mmap",
                 skip_warmup=False,
             ),
@@ -49,3 +49,24 @@
     weights=[1.0],
     num_workers=4,
 )
+
+dataloader.test = [
+    LazyCall(build_nlp_test_loader)(
+        dataset=LazyCall(T5Dataset)(
+            name="t5",
+            data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
+            indexed_dataset=LazyCall(get_indexed_dataset)(
+                data_prefix="/workspace/data/libai_dataset/loss_compara_content_sentence",
+                data_impl="mmap",
+                skip_warmup=False,
+            ),
+            max_num_samples=10,
+            max_seq_length=512,
+            max_seq_length_dec=128,
+            masked_lm_prob=0.15,
+            short_seq_prob=0.1,
+            seed=1234,
+        ),
+        test_batch_size=4,
+    )
+]
@@ -15,6 +15,8 @@
 tokenization.tokenizer.merges_file = merge_files
 dataloader.train.dataset[0].data_prefix = data_prefix
 dataloader.train.dataset[0].indexed_dataset.data_prefix = data_prefix
+dataloader.test[0].dataset.data_prefix = data_prefix
+dataloader.test[0].dataset.indexed_dataset.data_prefix = data_prefix
 
 # GPT-2 model config
 model.cfg.embedding_dropout_prob = 0.1
 
@@ -15,6 +15,8 @@
 tokenization.tokenizer.merges_file = merge_files
 dataloader.train.dataset[0].data_prefix = data_prefix
 dataloader.train.dataset[0].indexed_dataset.data_prefix = data_prefix
+dataloader.test[0].dataset.data_prefix = data_prefix
+dataloader.test[0].dataset.indexed_dataset.data_prefix = data_prefix
 
 # RoBERTa model config
 model.cfg.num_attention_heads = 12
 
@@ -13,6 +13,8 @@
 tokenization.tokenizer.vocab_file = vocab_file
 dataloader.train.dataset[0].data_prefix = data_prefix
 dataloader.train.dataset[0].indexed_dataset.data_prefix = data_prefix
+dataloader.test[0].dataset.data_prefix = data_prefix
+dataloader.test[0].dataset.indexed_dataset.data_prefix = data_prefix
 
 # T5-large model config
 model.cfg.num_attention_heads = 12
 
@@ -7,20 +7,20 @@ export TEST_OUTPUT=output_unittest
 export ONEFLOW_TEST_DEVICE_NUM=4
 export ONEFLOW_EP_CUDA_ENABLE_TF32_EXECUTION=0
 
-python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_utils/test_bert_loader.py
+python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_loader/test_bert_loader.py
 
-python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_utils/test_roberta_loader.py
+python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_loader/test_roberta_loader.py
 
-python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_utils/test_gpt_loader.py
+python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_loader/test_gpt_loader.py
 
-python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_utils/test_mt5_loader.py
+python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_loader/test_mt5_loader.py
 
-python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_utils/test_t5_loader.py
+python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_loader/test_t5_loader.py
 
-python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_utils/test_swin_loader.py
+python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_loader/test_swin_loader.py
 
-python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_utils/test_swinv2_loader.py
+python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_loader/test_swinv2_loader.py
 
-python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_utils/test_vit_loader.py
+python3 -m oneflow.distributed.launch --nproc_per_node 4 -m pytest -s --disable-warnings tests/model_loader/test_vit_loader.py
 
 rm -rf $TEST_OUTPUT
@@ -56,7 +56,7 @@ bert = loader.load()
 # Use Custom ModelLoader
 
 ## Model Loader for HuggerFace
-If you want to define your own HuggerFace's model loader, you can inherit the base `ModelLoaderHuggerFace` in `libai.models.utils.model_utils.base_loader`.
+If you want to define your own HuggerFace's model loader, you can inherit the base `ModelLoaderHuggerFace` in `libai.models.utils.model_loader.base_loader`.
 
 Then you need to overwrite the `_convert_state_dict` and `_load_config_from_json` method to load HuggingFace's pretrained model in LiBai. 
 
@@ -99,7 +99,7 @@ class ToyModelLoaderHuggerFace(ModelLoaderHuggerFace):
 ```
 
 ## Model Loader for LiBai
-If you want to define your own LiBai's model loader, you can inherit the base `ModelLoaderLiBai` class in `libai.models.utils.model_utils.base_loader`.
+If you want to define your own LiBai's model loader, you can inherit the base `ModelLoaderLiBai` class in `libai.models.utils.model_loader.base_loader`.
 
 You just need to set `base_model_prefix_2` argument to load LiBai's pretrained model.
 
 
@@ -112,8 +112,6 @@ Unlike normal data parallelism, where model states and gradients are replicated
 
 - Level 2: The reduced 32-bit gradients for updating the model weights are also partitioned so that each process retains only the gradients corresponding to its portion of the optimizer states.
 
-> **Note:** ZeRO only supports data parallel and pipeline parallel, or the combination of them. If you use tensor parallel in your training, make sure ZeRO is disabled.
-
 ### Usage 
 
 ```python
 
@@ -18,7 +18,7 @@ Then, Process the JSON file into a binary format for training. To conver the jso
 ```bash
 #!/bin/bash
 
-IMPL=lazy
+IMPL=mmap
 KEYS=text
 
 python tools/preprocess_data.py \
 
@@ -123,7 +123,7 @@ def load_pretrain_weight(
                 set it to `random` for quickly debugging by random initialized model
         """
         if mode == "libai":
-            from libai.models.utils.model_utils.base_loader import ModelLoaderLiBai
+            from libai.models.utils.model_loader.base_loader import ModelLoaderLiBai
 
             model_loader = ModelLoaderLiBai(libai_cfg_model, libai_cfg_model.cfg, model_path)
             model_loader.base_model_prefix_1 = None
 
@@ -18,6 +18,7 @@
 from .embedding import Embedding, SinePositionalEmbedding, VocabEmbedding, PatchEmbedding
 from .layer_norm import LayerNorm, RMSLayerNorm
 from .linear import Linear, Linear1D
+from .conv import Conv1D
 from .lm_logits import LMLogits
 from .mlp import MLP
 from .transformer_layer import TransformerLayer
@@ -32,6 +33,7 @@
     "build_activation",
     "Linear",
     "Linear1D",
+    "Conv1D",
     "MLP",
     "LayerNorm",
     "RMSLayerNorm",
 
@@ -0,0 +1,127 @@
+# coding=utf-8
+# Copyright 2021 The OneFlow Authors. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+
+import os
+
+import oneflow as flow
+from oneflow import nn
+
+from libai.utils import distributed as dist
+
+
+class Conv1D(nn.Module):
+    def __init__(
+        self,
+        in_features,
+        out_features,
+        bias=True,
+        parallel="data",
+        init_method=nn.init.xavier_normal_,
+        skip_bias_add=False,
+        dtype=flow.float32,
+        *,
+        layer_idx=0,
+    ):
+        super().__init__()
+        self.in_features = in_features
+        self.out_features = out_features
+        self.parallel = parallel
+        self.skip_bias_add = skip_bias_add
+
+        if parallel == "col":
+            weight_sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.split(1)])
+            bias_sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.broadcast])
+
+        elif parallel == "row":
+            weight_sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.split(0)])
+            bias_sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.split(0)])
+
+        elif parallel == "data":
+            weight_sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.broadcast])
+            bias_sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.broadcast])
+
+        else:
+            raise KeyError(f"{parallel} is not supported! Only support ('data', 'row' and 'col')")
+
+        self.weight = flow.nn.Parameter(
+            flow.empty(
+                (in_features, out_features),
+                dtype=dtype,
+                placement=dist.get_layer_placement(layer_idx),  # for pipeline parallelism placement
+                sbp=weight_sbp,
+            )
+        )
+        if os.getenv("ONEFLOW_LINEAR_EMBEDDING_SKIP_INIT", "0") != "1":
+            init_method(self.weight)
+
+        self.bias = (
+            flow.nn.Parameter(
+                flow.zeros(
+                    (out_features,),
+                    dtype=dtype,
+                    placement=dist.get_layer_placement(layer_idx),
+                    sbp=bias_sbp,
+                )
+            )
+            if bias
+            else None
+        )
+
+    def forward(self, x):
+        if dist.same_sbp(self.weight.sbp, dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.split(1)])):
+            if self.weight.sbp[-1] == flow.sbp.split(1):
+                x_sbp = x.sbp[:-1] + (flow.sbp.broadcast,)
+                x = x.to_global(sbp=x_sbp)
+
+            x = x.to_global(grad_sbp=x.sbp)
+            x = flow.matmul(x, self.weight)
+
+        elif dist.same_sbp(
+            self.weight.sbp, dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.split(0)])
+        ):
+            if self.weight.sbp[-1] == flow.sbp.split(0):
+                x_sbp = x.sbp[:-1] + (flow.sbp.split(x.ndim - 1),)
+                x = x.to_global(sbp=x_sbp)
+                out_sbp = x.sbp[:-1] + (flow.sbp.broadcast,)
+            else:
+                out_sbp = x.sbp
+
+            x = flow.matmul(x, self.weight)
+            x = x.to_global(sbp=out_sbp)
+
+        elif dist.same_sbp(
+            self.weight.sbp, dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.broadcast])
+        ):
+            x = x.to_global(grad_sbp=x.sbp)
+            x = flow.matmul(x, self.weight)
+        else:
+            x = flow.matmul(x, self.weight)
+
+        if self.bias is not None:
+            if self.skip_bias_add:
+                return x, self.bias
+            else:
+                return x + self.bias
+        else:
+            return x
+
+    def extra_repr(self) -> str:
+        return "in_features={}, out_features={}, bias={}, parallel={}".format(
+            self.in_features,
+            self.out_features,
+            self.bias is not None,
+            self.parallel,
+        )
@@ -15,10 +15,10 @@
 
 from .graph_base import GraphBase
 from .weight_init import init_method_normal, scaled_init_method_normal
-from .model_utils.base_loader import ModelLoaderHuggerFace, ModelLoaderLiBai
-from .model_utils.bert_loader import BertLoaderHuggerFace, BertLoaderLiBai
-from .model_utils.roberta_loader import RobertaLoaderHuggerFace, RobertaLoaderLiBai
-from .model_utils.gpt_loader import GPT2LoaderHuggerFace, GPT2LoaderLiBai
-from .model_utils.swin_loader import SwinLoaderHuggerFace, SwinLoaderLiBai
-from .model_utils.swinv2_loader import SwinV2LoaderHuggerFace, SwinV2LoaderLiBai
-from .model_utils.vit_loader import ViTLoaderHuggerFace, ViTLoaderLiBai
+from .model_loader.base_loader import ModelLoaderHuggerFace, ModelLoaderLiBai
+from .model_loader.bert_loader import BertLoaderHuggerFace, BertLoaderLiBai
+from .model_loader.roberta_loader import RobertaLoaderHuggerFace, RobertaLoaderLiBai
+from .model_loader.gpt_loader import GPT2LoaderHuggerFace, GPT2LoaderLiBai
+from .model_loader.swin_loader import SwinLoaderHuggerFace, SwinLoaderLiBai
+from .model_loader.swinv2_loader import SwinV2LoaderHuggerFace, SwinV2LoaderLiBai
+from .model_loader.vit_loader import ViTLoaderHuggerFace, ViTLoaderLiBai
@@ -320,7 +320,7 @@ def load(self):
 
             >>> import libai
             >>> from libai.config.configs.common.models.bert import cfg
-            >>> from model_utils import BertLoaderLiBai
+            >>> from model_loader import BertLoaderLiBai
 
             >>> loder = BertLoaderLiBai(
                     libai.models.BertModel,