fix linting issues

asamal4 · asamal4 · commit e5fcdeecd996 · 2025-08-26T16:25:44.000+05:30
diff --git a/lsc_eval/pyproject.toml b/lsc_eval/pyproject.toml
@@ -17,7 +17,7 @@ dependencies = [
     "datasets>=2.0.0",
     "matplotlib>=3.5.0",
     "seaborn>=0.11.0",
-    "numpy>=1.21.0"
+    "numpy>=1.23.0"
 ]
 
 [tool.pdm.dev-dependencies]
@@ -46,6 +46,9 @@ build-backend = "pdm.backend"
 [tool.pdm]
 distribution = true
 
+[tool.pdm.build]
+includes = ["lsc_eval/config/*.yaml"]
+
 [tool.ruff]
 # always generate Python 3.11-compatible code.
 target-version = "py311"
diff --git a/lsc_eval/runner.py b/lsc_eval/runner.py
@@ -4,7 +4,7 @@
 Simple interface that uses EvaluationEngine as the core controller.
 
 Usage:
-    python runner.py --system-config config/system.yaml --eval-data config/evaluation_data.yaml
+    python -m runner --system-config config/system.yaml --eval-data config/evaluation_data.yaml
 
 Or programmatically:
     from runner import run_evaluation
@@ -96,7 +96,7 @@ def run_evaluation(
         return None
 
 
-def main():
+def main() -> int:
     """Command line interface."""
     parser = argparse.ArgumentParser(description="LSC Evaluation Framework / Tool")
     parser.add_argument(
diff --git a/lsc_eval/src/lsc_eval/__init__.py b/lsc_eval/src/lsc_eval/__init__.py
@@ -3,14 +3,14 @@
 from .core import (
     ConfigLoader,
     DataValidator,
-    SystemConfig,
     EvaluationData,
     EvaluationResult,
+    SystemConfig,
     TurnData,
 )
 from .evaluation_engine import EvaluationEngine
 from .llm_managers.llm_manager import LLMManager
-from .output import OutputHandler
+from .output.output_handler import OutputHandler
 
 __all__ = [
     "SystemConfig",
diff --git a/lsc_eval/src/lsc_eval/core/config_loader.py b/lsc_eval/src/lsc_eval/core/config_loader.py
@@ -2,11 +2,14 @@
 
 import logging
 import os
-from typing import Any, Dict, List
+from typing import TYPE_CHECKING, Any, Dict, List, Optional
 
 import yaml
 from pydantic import BaseModel, Field
 
+if TYPE_CHECKING:
+    from .models import EvaluationData
+
 # Global metric mapping sets (populated dynamically from system config)
 TURN_LEVEL_METRICS: set[str] = set()
 CONVERSATION_LEVEL_METRICS: set[str] = set()
@@ -24,7 +27,7 @@
 ]
 
 
-def setup_environment_variables(config_path: str):
+def setup_environment_variables(config_path: str) -> None:
     """Early setup of environment variables from system config. Called before any other imports."""
     try:
         with open(config_path, "r", encoding="utf-8") as f:
@@ -44,7 +47,7 @@ def setup_environment_variables(config_path: str):
         os.environ["LITELLM_LOG_LEVEL"] = "ERROR"
 
 
-def setup_logging(logging_config: Dict[str, Any]):
+def setup_logging(logging_config: Dict[str, Any]) -> logging.Logger:
     """Configure logging for application and packages."""
     # Get logging settings with new structure
     source_level = getattr(logging, logging_config.get("source_level", "INFO").upper())
@@ -102,7 +105,7 @@ def setup_logging(logging_config: Dict[str, Any]):
     return logger
 
 
-def populate_metric_mappings(metrics_metadata: Dict[str, Any]):
+def populate_metric_mappings(metrics_metadata: Dict[str, Any]) -> None:
     """Populate global metric mapping sets from system config metadata."""
     TURN_LEVEL_METRICS.clear()
     CONVERSATION_LEVEL_METRICS.clear()
@@ -176,11 +179,11 @@ class SystemConfig(BaseModel):
 class ConfigLoader:
     """Configuration loader for LSC Evaluation Framework."""
 
-    def __init__(self):
+    def __init__(self) -> None:
         """Initialize Config Loader."""
-        self.system_config = None
-        self.evaluation_data = None
-        self.logger = None
+        self.system_config: Optional[SystemConfig] = None
+        self.evaluation_data: Optional[List[EvaluationData]] = None
+        self.logger: Optional[logging.Logger] = None
 
     def load_system_config(self, config_path: str) -> SystemConfig:
         """Load system configuration from YAML file."""
diff --git a/lsc_eval/src/lsc_eval/core/data_validator.py b/lsc_eval/src/lsc_eval/core/data_validator.py
@@ -1,20 +1,20 @@
 """Data validation of input data before evaluation."""
 
-from typing import List
+from typing import List, Optional
 
 import yaml
 
-from .models import EvaluationData
 from .config_loader import CONVERSATION_LEVEL_METRICS, TURN_LEVEL_METRICS
+from .models import EvaluationData
 
 
 class DataValidator:
     """Data validator for evaluation data."""
 
-    def __init__(self):
+    def __init__(self) -> None:
         """Initialize validator."""
-        self.validation_errors = []
-        self.evaluation_data = None
+        self.validation_errors: List[str] = []
+        self.evaluation_data: Optional[List[EvaluationData]] = None
 
     def load_evaluation_data(self, data_path: str) -> List[EvaluationData]:
         """Load and validate evaluation data from YAML file."""
@@ -53,7 +53,7 @@ def validate_evaluation_data(self, evaluation_data: List[EvaluationData]) -> boo
         print("✅ All data validation passed")
         return True
 
-    def _validate_metrics_availability(self, data: EvaluationData):
+    def _validate_metrics_availability(self, data: EvaluationData) -> None:
         """Validate that specified metrics are available/supported."""
         conversation_id = data.conversation_group_id
 
@@ -71,7 +71,7 @@ def _validate_metrics_availability(self, data: EvaluationData):
                     f"Conversation {conversation_id}: Unknown conversation metric '{metric}'"
                 )
 
-    def _validate_metric_requirements(self, data: EvaluationData):
+    def _validate_metric_requirements(self, data: EvaluationData) -> None:
         """Validate that required fields exist for specified metrics."""
         conversation_id = data.conversation_group_id
 
diff --git a/lsc_eval/src/lsc_eval/evaluation_engine.py b/lsc_eval/src/lsc_eval/evaluation_engine.py
@@ -5,7 +5,7 @@
 """
 
 import time
-from typing import Any, Dict, List, Optional, Union
+from typing import Any, Dict, List, Optional, Tuple, Union
 
 from .core import ConfigLoader, DataValidator, EvaluationData, EvaluationResult, TurnData
 from .llm_managers.llm_manager import LLMManager
@@ -80,7 +80,9 @@ def __init__(self, llm_manager: LLMManager):
             "custom": self.custom_metrics,
         }
 
-    def evaluate_metric(self, framework: str, metric_name: str, request: EvaluationRequest):
+    def evaluate_metric(
+        self, framework: str, metric_name: str, request: EvaluationRequest
+    ) -> Tuple[Optional[float], str]:
         """Route evaluation to appropriate handler."""
         if framework in self.handlers:
             # Create shared EvaluationScope
@@ -155,7 +157,7 @@ def run_evaluation(self, evaluation_data: List[EvaluationData]) -> List[Evaluati
         print(f"\n✅ Evaluation complete: {len(self.results)} results generated")
         return self.results
 
-    def _process_conversation(self, conv_data: EvaluationData):
+    def _process_conversation(self, conv_data: EvaluationData) -> None:
         """Process single conversation - handle turn and conversation level metrics."""
         print(f"\n📋 Evaluating: {conv_data.conversation_group_id}")
 
@@ -175,15 +177,15 @@ def _process_conversation(self, conv_data: EvaluationData):
             print(f"🗣️ Conversation-level metrics: {conv_data.conversation_metrics}")
             self._evaluate_conversation(conv_data)
 
-    def _evaluate_turn(self, conv_data: EvaluationData, turn_idx: int, turn_data: TurnData):
+    def _evaluate_turn(self, conv_data: EvaluationData, turn_idx: int, turn_data: TurnData) -> None:
         """Evaluate single turn with specified turn metrics."""
         for metric_identifier in conv_data.turn_metrics:
             request = EvaluationRequest.for_turn(conv_data, metric_identifier, turn_idx, turn_data)
             result = self._evaluate_metric(request)
             if result:
                 self.results.append(result)
 
-    def _evaluate_conversation(self, conv_data: EvaluationData):
+    def _evaluate_conversation(self, conv_data: EvaluationData) -> None:
         """Evaluate conversation-level metrics."""
         for metric_identifier in conv_data.conversation_metrics:
             request = EvaluationRequest.for_conversation(conv_data, metric_identifier)
diff --git a/lsc_eval/src/lsc_eval/llm_managers/ragas_llm.py b/lsc_eval/src/lsc_eval/llm_managers/ragas_llm.py
@@ -19,11 +19,11 @@ def __init__(self, model_name: str, litellm_params: Dict[str, Any]):
 
     def generate_text(  # pylint: disable=too-many-arguments,too-many-positional-arguments
         self,
-        prompt,
+        prompt: Any,
         n: int = 1,
         temperature: float = 1e-08,
         stop: Optional[List[str]] = None,
-        callbacks=None,
+        callbacks: Optional[Any] = None,
     ) -> LLMResult:
         """Generate text using LiteLLM with provided parameters."""
         prompt_text = str(prompt)
@@ -60,11 +60,11 @@ def generate_text(  # pylint: disable=too-many-arguments,too-many-positional-arg
 
     async def agenerate_text(  # pylint: disable=too-many-arguments,too-many-positional-arguments
         self,
-        prompt,
+        prompt: Any,
         n: int = 1,
         temperature: Optional[float] = None,
         stop: Optional[List[str]] = None,
-        callbacks=None,
+        callbacks: Optional[Any] = None,
     ) -> LLMResult:
         """Async generate."""
         temp = temperature if temperature is not None else 1e-08
diff --git a/lsc_eval/src/lsc_eval/metrics/custom_metrics.py b/lsc_eval/src/lsc_eval/metrics/custom_metrics.py
@@ -42,7 +42,7 @@ def __init__(self, llm_manager: LLMManager):
     def evaluate(
         self,
         metric_name: str,
-        conv_data,
+        conv_data: Any,
         scope: EvaluationScope,
     ) -> Tuple[Optional[float], str]:
         """Evaluate a custom metric."""
@@ -192,7 +192,7 @@ def _create_evaluation_prompt(self, params: EvaluationPromptParams) -> str:
 
     def _evaluate_answer_correctness(
         self,
-        _conv_data,
+        _conv_data: Any,
         _turn_idx: Optional[int],
         turn_data: Optional[TurnData],
         is_conversation: bool,
diff --git a/lsc_eval/src/lsc_eval/metrics/deepeval_metrics.py b/lsc_eval/src/lsc_eval/metrics/deepeval_metrics.py
@@ -37,7 +37,7 @@ def __init__(self, llm_manager: LLMManager):
             "knowledge_retention": self._evaluate_knowledge_retention,
         }
 
-    def _build_conversational_test_case(self, conv_data) -> ConversationalTestCase:
+    def _build_conversational_test_case(self, conv_data: Any) -> ConversationalTestCase:
         """Build ConversationalTestCase from conversation data."""
         turns = []
         for turn_data in conv_data.turns:
@@ -48,7 +48,7 @@ def _build_conversational_test_case(self, conv_data) -> ConversationalTestCase:
 
         return ConversationalTestCase(turns=turns)
 
-    def _evaluate_metric(self, metric, test_case) -> Tuple[float, str]:
+    def _evaluate_metric(self, metric: Any, test_case: Any) -> Tuple[float, str]:
         """Evaluate and get result."""
         metric.measure(test_case)
 
@@ -62,7 +62,7 @@ def _evaluate_metric(self, metric, test_case) -> Tuple[float, str]:
     def evaluate(
         self,
         metric_name: str,
-        conv_data,
+        conv_data: Any,
         scope: EvaluationScope,
     ) -> Tuple[Optional[float], str]:
         """Evaluate a DeepEval metric."""
@@ -78,7 +78,7 @@ def evaluate(
 
     def _evaluate_conversation_completeness(
         self,
-        conv_data,
+        conv_data: Any,
         _turn_idx: Optional[int],
         _turn_data: Optional[TurnData],
         is_conversation: bool,
@@ -94,7 +94,7 @@ def _evaluate_conversation_completeness(
 
     def _evaluate_conversation_relevancy(
         self,
-        conv_data,
+        conv_data: Any,
         _turn_idx: Optional[int],
         _turn_data: Optional[TurnData],
         is_conversation: bool,
@@ -114,7 +114,7 @@ def _evaluate_conversation_relevancy(
 
     def _evaluate_knowledge_retention(
         self,
-        conv_data,
+        conv_data: Any,
         _turn_idx: Optional[int],
         _turn_data: Optional[TurnData],
         is_conversation: bool,
diff --git a/lsc_eval/src/lsc_eval/metrics/ragas_metrics.py b/lsc_eval/src/lsc_eval/metrics/ragas_metrics.py
@@ -62,7 +62,7 @@ def _extract_turn_data(self, turn_data: Optional[TurnData]) -> Tuple[str, str, L
         return query, response, contexts
 
     def _evaluate_metric(
-        self, metric_class, dataset_dict, result_key: str, metric_name: str
+        self, metric_class: Any, dataset_dict: Dict[str, Any], result_key: str, metric_name: str
     ) -> Tuple[Optional[float], str]:
         """Evaluate metric with configured LLM."""
         dataset = Dataset.from_dict(dataset_dict)
@@ -78,7 +78,7 @@ def _evaluate_metric(
     def evaluate(
         self,
         metric_name: str,
-        conv_data,
+        conv_data: Any,
         scope: EvaluationScope,
     ) -> Tuple[Optional[float], str]:
         """Evaluate a Ragas metric."""
@@ -108,7 +108,7 @@ def evaluate(
 
     def _evaluate_response_relevancy(
         self,
-        _conv_data,
+        _conv_data: Any,
         _turn_idx: Optional[int],
         turn_data: Optional[TurnData],
         is_conversation: bool,
@@ -127,7 +127,7 @@ def _evaluate_response_relevancy(
 
     def _evaluate_faithfulness(
         self,
-        _conv_data,
+        _conv_data: Any,
         _turn_idx: Optional[int],
         turn_data: Optional[TurnData],
         is_conversation: bool,
@@ -144,7 +144,7 @@ def _evaluate_faithfulness(
 
     def _evaluate_context_precision_without_reference(
         self,
-        _conv_data,
+        _conv_data: Any,
         _turn_idx: Optional[int],
         turn_data: Optional[TurnData],
         is_conversation: bool,
@@ -166,7 +166,7 @@ def _evaluate_context_precision_without_reference(
 
     def _evaluate_context_precision_with_reference(
         self,
-        _conv_data,
+        _conv_data: Any,
         _turn_idx: Optional[int],
         turn_data: Optional[TurnData],
         is_conversation: bool,
@@ -196,7 +196,7 @@ def _evaluate_context_precision_with_reference(
 
     def _evaluate_context_recall(
         self,
-        _conv_data,
+        _conv_data: Any,
         _turn_idx: Optional[int],
         turn_data: Optional[TurnData],
         is_conversation: bool,
@@ -223,7 +223,7 @@ def _evaluate_context_recall(
 
     def _evaluate_context_relevance(
         self,
-        _conv_data,
+        _conv_data: Any,
         _turn_idx: Optional[int],
         turn_data: Optional[TurnData],
         is_conversation: bool,
diff --git a/lsc_eval/src/lsc_eval/output/output_handler.py b/lsc_eval/src/lsc_eval/output/output_handler.py
@@ -4,10 +4,10 @@
 import json
 from datetime import datetime
 from pathlib import Path
-from typing import Any, Dict, List
+from typing import Any, Dict, List, Optional
 
-from ..core.models import EvaluationResult
 from ..core.config_loader import DEFAULT_CSV_COLUMNS
+from ..core.models import EvaluationResult
 from .utils import calculate_basic_stats, calculate_detailed_stats
 from .visualization import GraphGenerator
 
@@ -19,8 +19,8 @@ def __init__(
         self,
         output_dir: str = "./eval_output",
         base_filename: str = "evaluation",
-        system_config=None,
-    ):
+        system_config: Optional[Any] = None,
+    ) -> None:
         """Initialize Output handler."""
         self.output_dir = Path(output_dir)
         self.base_filename = base_filename
diff --git a/lsc_eval/src/lsc_eval/output/visualization.py b/lsc_eval/src/lsc_eval/output/visualization.py