apache · johnhoran · Jan 9, 2026 · Jan 9, 2026 · Jan 9, 2026 · Jan 9, 2026
@@ -16,10 +16,11 @@
 # under the License.
 from __future__ import annotations
 
+import asyncio
 import logging
 import secrets
 import string
-from functools import cache
+from functools import cache, wraps
 from typing import TYPE_CHECKING
 
 import pendulum
@@ -32,6 +33,7 @@
 
 from airflow.configuration import conf
 from airflow.providers.cncf.kubernetes.backcompat import get_logical_date_key
+from airflow.providers.cncf.kubernetes.callbacks import ExecutionMode
 from airflow.providers.common.compat.sdk import AirflowException
 
 if TYPE_CHECKING:
@@ -211,3 +213,15 @@ def annotations_for_logging_task_metadata(annotation_set):
     else:
         annotations_for_logging = "<omitted>"
     return annotations_for_logging
+
+
+def serializable_callback(f):
+    """Convert async callback so it can run in sync or async mode."""
+
+    @wraps(f)
+    def wrapper(*args, mode: str, **kwargs):
+        if mode == ExecutionMode.ASYNC:
+            return f(*args, mode=mode, **kwargs)
+        return asyncio.run(f(*args, mode=mode, **kwargs))
+
+    return wrapper
@@ -289,7 +289,13 @@ def execute_complete(self, context: Context, event: dict, **kwargs):
                 pod = self.hook.get_pod(pod_name, pod_namespace)
                 if not pod:
                     raise PodNotFoundException("Could not find pod after resuming from deferral")
-                self._write_logs(pod)
+                self.pod_manager.fetch_requested_container_logs(
+                    pod=pod,
+                    containers=self.container_logs,
+                    container_name_log_prefix_enabled=self.container_name_log_prefix_enabled,
+                    log_formatter=self.log_formatter,
+                    post_termination_timeout=900,
+                )
 
         if self.do_xcom_push:
             xcom_results: list[Any | None] = []

@@ -23,7 +23,6 @@
 import inspect
 import json
 import logging
-import math
 import os
 import re
 import shlex
@@ -39,7 +38,6 @@
 from kubernetes.client import CoreV1Api, V1Pod, models as k8s
 from kubernetes.client.exceptions import ApiException
 from kubernetes.stream import stream
-from urllib3.exceptions import HTTPError
 
 from airflow.configuration import conf
 from airflow.providers.cncf.kubernetes import pod_generator
@@ -79,7 +77,7 @@
     PodPhase,
 )
 from airflow.providers.cncf.kubernetes.version_compat import AIRFLOW_V_3_1_PLUS
-from airflow.providers.common.compat.sdk import XCOM_RETURN_KEY, AirflowSkipException, TaskDeferred
+from airflow.providers.common.compat.sdk import XCOM_RETURN_KEY, AirflowSkipException
 
 if AIRFLOW_V_3_1_PLUS:
     from airflow.sdk import BaseHook, BaseOperator
@@ -912,6 +910,7 @@ def invoke_defer_method(
             last_log_time=last_log_time,
             logging_interval=self.logging_interval,
             trigger_kwargs=self.trigger_kwargs,
+            callbacks=self.callbacks,
         )
         container_state = trigger.define_container_state(self.pod) if self.pod else None
         if context and (
@@ -955,12 +954,17 @@ def trigger_reentry(self, context: Context, event: dict[str, Any]) -> Any:
             if not self.pod:
                 raise PodNotFoundException("Could not find pod after resuming from deferral")
 
-            follow = self.logging_interval is None
             last_log_time = event.get("last_log_time")
-
             if event["status"] in ("error", "failed", "timeout", "success"):
                 if self.get_logs:
-                    self._write_logs(self.pod, follow=follow, since_time=last_log_time)
+                    self.pod_manager.fetch_requested_container_logs(
+                        pod=self.pod,
+                        containers=self.container_logs,
+                        container_name_log_prefix_enabled=self.container_name_log_prefix_enabled,
+                        log_formatter=self.log_formatter,
+                        since_time=last_log_time,
+                        post_termination_timeout=900,
+                    )
 
                 for callback in self.callbacks:
                     callback.on_pod_completion(
@@ -987,8 +991,6 @@ def trigger_reentry(self, context: Context, event: dict[str, Any]) -> Any:
                     )
                     message = event.get("stack_trace", event["message"])
                     raise AirflowException(message)
-        except TaskDeferred:
-            raise
         finally:
             self._clean(event=event, context=context, result=xcom_sidecar_output)
 
@@ -1023,33 +1025,6 @@ def _clean(self, event: dict[str, Any], result: dict | None, context: Context) -
                 result=result,
             )
 
-    def _write_logs(self, pod: k8s.V1Pod, follow: bool = False, since_time: DateTime | None = None) -> None:
-        try:
-            since_seconds = (
-                math.ceil((datetime.datetime.now(tz=datetime.timezone.utc) - since_time).total_seconds())
-                if since_time
-                else None
-            )
-            logs = self.client.read_namespaced_pod_log(
-                name=pod.metadata.name,
-                namespace=pod.metadata.namespace,
-                container=self.base_container_name,
-                follow=follow,
-                timestamps=False,
-                since_seconds=since_seconds,
-                _preload_content=False,
-            )
-            for raw_line in logs:
-                line = raw_line.decode("utf-8", errors="backslashreplace").rstrip("\n")
-                if line:
-                    self.log.info("[%s] logs: %s", self.base_container_name, line)
-        except (HTTPError, ApiException) as e:
-            self.log.warning(
-                "Reading of logs interrupted with error %r; will retry. "
-                "Set log level to DEBUG for traceback.",
-                e if not isinstance(e, ApiException) else e.reason,
-            )
-
     def post_complete_action(
         self, *, pod: k8s.V1Pod, remote_pod: k8s.V1Pod, context: Context, result: dict | None, **kwargs
     ) -> None:

@@ -18,6 +18,7 @@
 
 import asyncio
 import datetime
+import importlib
 import traceback
 from collections.abc import AsyncIterator
 from enum import Enum
@@ -40,6 +41,8 @@
     from kubernetes_asyncio.client.models import V1Pod
     from pendulum import DateTime
 
+    from airflow.providers.cncf.kubernetes.callbacks import KubernetesPodOperatorCallback
+
 
 class ContainerState(str, Enum):
     """
@@ -101,6 +104,7 @@ def __init__(
         last_log_time: DateTime | None = None,
         logging_interval: int | None = None,
         trigger_kwargs: dict | None = None,
+        callbacks: list[type[KubernetesPodOperatorCallback]] | str | None = None,
     ):
         super().__init__()
         self.pod_name = pod_name
@@ -123,6 +127,18 @@ def __init__(
         self.trigger_kwargs = trigger_kwargs or {}
         self._since_time = None
 
+        if callbacks and isinstance(callbacks, str):
+            self._callbacks = []
+            for cbk in callbacks.split(","):
+                try:
+                    module_name, class_name = cbk.rsplit(".", 1)
+                    clazz = getattr(importlib.import_module(module_name), class_name)
+                    self._callbacks.append(clazz)
+                except (AttributeError, ModuleNotFoundError, ValueError) as e:
+                    self.log.warning("Failed to import callback %s: %s", cbk, e)
+        else:
+            self._callbacks = callbacks or []
+
     def serialize(self) -> tuple[str, dict[str, Any]]:
         """Serialize KubernetesCreatePodTrigger arguments and classpath."""
         return (
@@ -146,6 +162,12 @@ def serialize(self) -> tuple[str, dict[str, Any]]:
                 "last_log_time": self.last_log_time,
                 "logging_interval": self.logging_interval,
                 "trigger_kwargs": self.trigger_kwargs,
+                "callbacks": ",".join(
+                    [
+                        f"{x.__module__.split('_', 3)[3] if x.__module__.startswith('unusual_prefix_') else x.__module__}.{x.__name__}"
+                        for x in self._callbacks
+                    ]
+                ),
             },
         )
 
@@ -157,6 +179,7 @@ async def run(self) -> AsyncIterator[TriggerEvent]:
             self.pod_namespace,
             self.poll_interval,
         )
+
         try:
             state = await self._wait_for_pod_start()
             if state == ContainerState.TERMINATED:
@@ -332,7 +355,7 @@ def hook(self) -> AsyncKubernetesHook:
 
     @cached_property
     def pod_manager(self) -> AsyncPodManager:
-        return AsyncPodManager(async_hook=self.hook)
+        return AsyncPodManager(async_hook=self.hook, callbacks=self._callbacks)
 
     def define_container_state(self, pod: V1Pod) -> ContainerState:
         if pod.status is None or pod.status.container_statuses is None:

@@ -29,6 +29,7 @@
 from datetime import timedelta
 from typing import TYPE_CHECKING, Literal, cast
 
+import kubernetes_asyncio.client as async_k8s
 import pendulum
 from kubernetes import client, watch
 from kubernetes.client.rest import ApiException
@@ -680,6 +681,8 @@ def fetch_requested_container_logs(
         follow_logs=False,
         container_name_log_prefix_enabled: bool = True,
         log_formatter: Callable[[str, str], str] | None = None,
+        since_time: DateTime | None = None,
+        post_termination_timeout: int = 120,
     ) -> list[PodLoggingStatus]:
         """
         Follow the logs of containers in the specified pod and publish it to airflow logging.
@@ -702,6 +705,8 @@ def fetch_requested_container_logs(
                 follow=follow_logs,
                 container_name_log_prefix_enabled=container_name_log_prefix_enabled,
                 log_formatter=log_formatter,
+                since_time=since_time,
+                post_termination_timeout=post_termination_timeout,
             )
             pod_logging_statuses.append(status)
         return pod_logging_statuses
@@ -1110,31 +1115,57 @@ async def fetch_container_logs_before_current_sec(
             since_seconds=(math.ceil((now - since_time).total_seconds()) if since_time else None),
         )
         message_to_log = None
-        try:
-            now_seconds = now.replace(microsecond=0)
-            for line in logs:
-                line_timestamp, message = parse_log_line(line)
-                # Skip log lines from the current second to prevent duplicate entries on the next read.
-                # The API only allows specifying 'since_seconds', not an exact timestamp.
-                if line_timestamp and line_timestamp.replace(microsecond=0) == now_seconds:
-                    break
-                if line_timestamp:  # detect new log line
-                    if message_to_log is None:  # first line in the log
-                        message_to_log = message
-                    else:  # previous log line is complete
-                        if message_to_log is not None:
-                            if is_log_group_marker(message_to_log):
-                                print(message_to_log)
-                            else:
-                                self.log.info("[%s] %s", container_name, message_to_log)
-                        message_to_log = message
-                elif message_to_log:  # continuation of the previous log line
-                    message_to_log = f"{message_to_log}\n{message}"
-        finally:
-            # log the last line and update the last_captured_timestamp
-            if message_to_log is not None:
-                if is_log_group_marker(message_to_log):
-                    print(message_to_log)
-                else:
-                    self.log.info("[%s] %s", container_name, message_to_log)
+        async with self._hook.get_conn() as connection:
+            v1_api = async_k8s.CoreV1Api(connection)
+            try:
+                now_seconds = now.replace(microsecond=0)
+                for line in logs:
+                    line_timestamp, message = parse_log_line(line)
+                    # Skip log lines from the current second to prevent duplicate entries on the next read.
+                    # The API only allows specifying 'since_seconds', not an exact timestamp.
+                    if line_timestamp and line_timestamp.replace(microsecond=0) == now_seconds:
+                        break
+                    if line_timestamp:  # detect new log line
+                        if message_to_log is None:  # first line in the log
+                            message_to_log = message
+                        else:  # previous log line is complete
+                            if message_to_log is not None:
+                                if is_log_group_marker(message_to_log):
+                                    print(message_to_log)
+                                else:
+                                    for callback in self._callbacks:
+                                        cb = callback.progress_callback(
+                                            line=message_to_log,
+                                            client=v1_api,
+                                            mode=ExecutionMode.ASYNC,
+                                            container_name=container_name,
+                                            timestamp=line_timestamp,
+                                            pod=pod,
+                                        )
+                                        if asyncio.iscoroutine(cb):
+                                            await cb
+
+                                    self.log.info("[%s] %s", container_name, message_to_log)
+                            message_to_log = message
+                    elif message_to_log:  # continuation of the previous log line
+                        message_to_log = f"{message_to_log}\n{message}"
+            finally:
+                # log the last line and update the last_captured_timestamp
+                if message_to_log is not None:
+                    if is_log_group_marker(message_to_log):
+                        print(message_to_log)
+                    else:
+                        for callback in self._callbacks:
+                            cb = callback.progress_callback(
+                                line=message_to_log,
+                                client=v1_api,
+                                mode=ExecutionMode.ASYNC,
+                                container_name=container_name,
+                                timestamp=line_timestamp,
+                                pod=pod,
+                            )
+                            if asyncio.iscoroutine(cb):
+                                await cb
+
+                        self.log.info("[%s] %s", container_name, message_to_log)
         return now  # Return the current time as the last log time to ensure logs from the current second are read in the next fetch.
@@ -811,8 +811,8 @@ def test_wait_until_job_complete(
 
     @pytest.mark.parametrize("do_xcom_push", [True, False])
     @pytest.mark.parametrize("get_logs", [True, False])
-    @patch(JOB_OPERATORS_PATH.format("KubernetesJobOperator._write_logs"))
-    def test_execute_complete(self, mocked_write_logs, get_logs, do_xcom_push):
+    @patch(JOB_OPERATORS_PATH.format("KubernetesJobOperator.pod_manager"))
+    def test_execute_complete(self, mock_manager, get_logs, do_xcom_push):
         mock_ti = mock.MagicMock()
         context = {"ti": mock_ti}
         mock_job = mock.MagicMock()
@@ -839,9 +839,9 @@ def test_execute_complete(self, mocked_write_logs, get_logs, do_xcom_push):
         mock_ti.xcom_push.assert_called_once_with(key="job", value=mock_job)
 
         if get_logs:
-            mocked_write_logs.assert_called_once()
+            mock_manager.fetch_requested_container_logs.assert_called_once()
         else:
-            mocked_write_logs.assert_not_called()
+            mock_manager.fetch_requested_container_logs.assert_not_called()
 
     @pytest.mark.non_db_test_override
     def test_execute_complete_fail(self):