lint; fix doc; revert pytest skip

yuki-97 · yuki-97 · commit c8aad08a8a27 · 2025-08-26T02:59:14.000Z
Signed-off-by: Yuki Huang &lt;yukih@nvidia.com&gt;
diff --git a/docs/guides/eval.md b/docs/guides/eval.md
@@ -89,12 +89,11 @@ score=0.1000 (3.0/30)
 
 ## List of currently supported benchmarks
 
-- [AIME-2024](../../nemo_rl/data/eval_datasets/aime2024.py): the corresponding `data.dataset_name` is `"aime2024"`.
-- [AIME-2025](../../nemo_rl/data/eval_datasets/aime2025.py): the corresponding `data.dataset_name` is `"aime2025"`.
-- [GPQA and GPQA-diamond](../../nemo_rl/data/eval_datasets/gpqa.py): the corresponding `data.dataset_name` are `"gpqa"` and `"gpqa-diamond"`.
-- [MATH and MATH-500](../../nemo_rl/data/eval_datasets/math.py): the corresponding `data.dataset_name` are `"math"` and `"math500"`.
-- [MMLU](../../nemo_rl/data/eval_datasets/mmlu.py): this also includes MMMLU (Multilingual MMLU), a total of 14 languages. When `data.dataset_name` is set to `mmlu`, the English version is used. If one wants to run evaluation on another language, `data.dataset_name` should be set to `mmlu_{language}` where `language` is one of following 14 values, `["AR-XY", "BN-BD", "DE-DE", "ES-LA", "FR-FR", "HI-IN", "ID-ID", "IT-IT", "JA-JP", "KO-KR", "PT-BR", "ZH-CN", "SW-KE", "YO-NG"]`.
-- [MMLU-Pro](../../nemo_rl/data/eval_datasets/mmlu_pro.py): the corresponding `data.dataset_name` is `"mmlu_pro"`.
-
-More details can be found in [load_eval_dataset](../../nemo_rl/data/eval_datasets/__init__.py).
-
+- [AIME-2024](../../nemo_rl/data/datasets/eval_datasets/aime2024.py): the corresponding `data.dataset_name` is `"aime2024"`.
+- [AIME-2025](../../nemo_rl/data/datasets/eval_datasets/aime2025.py): the corresponding `data.dataset_name` is `"aime2025"`.
+- [GPQA and GPQA-diamond](../../nemo_rl/data/datasets/eval_datasets/gpqa.py): the corresponding `data.dataset_name` are `"gpqa"` and `"gpqa-diamond"`.
+- [MATH and MATH-500](../../nemo_rl/data/datasets/eval_datasets/math.py): the corresponding `data.dataset_name` are `"math"` and `"math500"`.
+- [MMLU](../../nemo_rl/data/datasets/eval_datasets/mmlu.py): this also includes MMMLU (Multilingual MMLU), a total of 14 languages. When `data.dataset_name` is set to `mmlu`, the English version is used. If one wants to run evaluation on another language, `data.dataset_name` should be set to `mmlu_{language}` where `language` is one of following 14 values, `["AR-XY", "BN-BD", "DE-DE", "ES-LA", "FR-FR", "HI-IN", "ID-ID", "IT-IT", "JA-JP", "KO-KR", "PT-BR", "ZH-CN", "SW-KE", "YO-NG"]`.
+- [MMLU-Pro](../../nemo_rl/data/datasets/eval_datasets/mmlu_pro.py): the corresponding `data.dataset_name` is `"mmlu_pro"`.
+
+More details can be found in [load_eval_dataset](../../nemo_rl/data/datasets/eval_datasets/__init__.py).
diff --git a/examples/run_sft.py b/examples/run_sft.py
@@ -111,7 +111,9 @@ def setup_data(tokenizer: AutoTokenizer, data_config: DataConfig, seed: int):
     # add preprocessor if needed
     datum_preprocessor = None
     if data_config["dataset_name"] == "clevr_cogent":
-        from nemo_rl.data.datasets.response_datasets.clevr import format_clevr_cogent_dataset
+        from nemo_rl.data.datasets.response_datasets.clevr import (
+            format_clevr_cogent_dataset,
+        )
 
         datum_preprocessor = partial(format_clevr_cogent_dataset, return_pil=True)
 
diff --git a/nemo_rl/data/datasets/response_datasets/local_response_dataset.py b/nemo_rl/data/datasets/response_datasets/local_response_dataset.py
@@ -35,6 +35,7 @@ class LocalResponseDataset:
         input_key: Key for the input text
         output_key: Key for the output text
     """
+
     def __init__(
         self,
         train_ds_path: str,
diff --git a/tests/unit/data/datasets/test_eval_dataset.py b/tests/unit/data/datasets/test_eval_dataset.py
@@ -11,6 +11,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
+import pytest
 from transformers import AutoTokenizer
 
 from nemo_rl.data.datasets.eval_datasets import (
@@ -20,6 +21,7 @@
 )
 
 
+@pytest.mark.skip(reason="dataset download is flaky")
 def test_gpqa_dataset():
     tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
     gpqa_dataset = GPQADataset()
@@ -44,6 +46,7 @@ def test_gpqa_dataset():
         )
 
 
+@pytest.mark.skip(reason="dataset download is flaky")
 def test_math_dataset():
     tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
     math_dataset = MathDataset()
@@ -67,6 +70,7 @@ def test_math_dataset():
         )
 
 
+@pytest.mark.skip(reason="dataset download is flaky")
 def test_mmlu_dataset():
     tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
     mmlu_dataset = MMLUDataset()