trinodb · martint · Oct 23, 2021 · Oct 22, 2021 · Oct 22, 2021 · Oct 22, 2021
diff --git a/core/trino-main/src/main/java/io/trino/execution/NodeTaskMap.java b/core/trino-main/src/main/java/io/trino/execution/NodeTaskMap.java
@@ -24,7 +24,8 @@
 import java.util.Set;
 import java.util.concurrent.ConcurrentHashMap;
 import java.util.concurrent.atomic.AtomicInteger;
-import java.util.function.IntConsumer;
+import java.util.concurrent.atomic.AtomicLong;
+import java.util.function.Consumer;
 
 import static com.google.common.base.MoreObjects.toStringHelper;
 import static java.util.Objects.requireNonNull;
@@ -47,9 +48,9 @@ public void addTask(InternalNode node, RemoteTask task)
         createOrGetNodeTasks(node).addTask(task);
     }
 
-    public int getPartitionedSplitsOnNode(InternalNode node)
+    public PartitionedSplitsInfo getPartitionedSplitsOnNode(InternalNode node)
     {
-        return createOrGetNodeTasks(node).getPartitionedSplitCount();
+        return createOrGetNodeTasks(node).getPartitionedSplitsInfo();
     }
 
     public PartitionedSplitCountTracker createPartitionedSplitCountTracker(InternalNode node, TaskId taskId)
@@ -80,16 +81,17 @@ private static class NodeTasks
     {
         private final Set<RemoteTask> remoteTasks = Sets.newConcurrentHashSet();
         private final AtomicInteger nodeTotalPartitionedSplitCount = new AtomicInteger();
+        private final AtomicLong nodeTotalPartitionedSplitWeight = new AtomicLong();
         private final FinalizerService finalizerService;
 
         public NodeTasks(FinalizerService finalizerService)
         {
             this.finalizerService = requireNonNull(finalizerService, "finalizerService is null");
         }
 
-        private int getPartitionedSplitCount()
+        private PartitionedSplitsInfo getPartitionedSplitsInfo()
         {
-            return nodeTotalPartitionedSplitCount.get();
+            return PartitionedSplitsInfo.forSplitCountAndWeightSum(nodeTotalPartitionedSplitCount.get(), nodeTotalPartitionedSplitWeight.get());
         }
 
         private void addTask(RemoteTask task)
@@ -112,8 +114,8 @@ public PartitionedSplitCountTracker createPartitionedSplitCountTracker(TaskId ta
         {
             requireNonNull(taskId, "taskId is null");
 
-            TaskPartitionedSplitCountTracker tracker = new TaskPartitionedSplitCountTracker(taskId);
-            PartitionedSplitCountTracker partitionedSplitCountTracker = new PartitionedSplitCountTracker(tracker::setPartitionedSplitCount);
+            TaskPartitionedSplitCountTracker tracker = new TaskPartitionedSplitCountTracker(taskId, nodeTotalPartitionedSplitCount, nodeTotalPartitionedSplitWeight);
+            PartitionedSplitCountTracker partitionedSplitCountTracker = new PartitionedSplitCountTracker(tracker);
 
             // when partitionedSplitCountTracker is garbage collected, run the cleanup method on the tracker
             // Note: tracker cannot have a reference to partitionedSplitCountTracker
@@ -123,41 +125,66 @@ public PartitionedSplitCountTracker createPartitionedSplitCountTracker(TaskId ta
         }
 
         @ThreadSafe
-        private class TaskPartitionedSplitCountTracker
+        private static class TaskPartitionedSplitCountTracker
+                implements Consumer<PartitionedSplitsInfo>
         {
             private final TaskId taskId;
+            private final AtomicInteger nodeTotalPartitionedSplitCount;
+            private final AtomicLong nodeTotalPartitionedSplitWeight;
             private final AtomicInteger localPartitionedSplitCount = new AtomicInteger();
+            private final AtomicLong localPartitionedSplitWeight = new AtomicLong();
 
-            public TaskPartitionedSplitCountTracker(TaskId taskId)
+            public TaskPartitionedSplitCountTracker(TaskId taskId, AtomicInteger nodeTotalPartitionedSplitCount, AtomicLong nodeTotalPartitionedSplitWeight)
             {
                 this.taskId = requireNonNull(taskId, "taskId is null");
+                this.nodeTotalPartitionedSplitCount = requireNonNull(nodeTotalPartitionedSplitCount, "nodeTotalPartitionedSplitCount is null");
+                this.nodeTotalPartitionedSplitWeight = requireNonNull(nodeTotalPartitionedSplitWeight, "nodeTotalPartitionedSplitWeight is null");
             }
 
-            public synchronized void setPartitionedSplitCount(int partitionedSplitCount)
+            @Override
+            public synchronized void accept(PartitionedSplitsInfo partitionedSplits)
             {
-                if (partitionedSplitCount < 0) {
-                    int oldValue = localPartitionedSplitCount.getAndSet(0);
-                    nodeTotalPartitionedSplitCount.addAndGet(-oldValue);
-                    throw new IllegalArgumentException("partitionedSplitCount is negative");
+                if (partitionedSplits == null || partitionedSplits.getCount() < 0 || partitionedSplits.getWeightSum() < 0) {
+                    clearLocalSplitInfo(false);
+                    requireNonNull(partitionedSplits, "partitionedSplits is null"); // throw NPE if null, otherwise negative value
+                    throw new IllegalArgumentException("Invalid negative value: " + partitionedSplits);
                 }
 
-                int oldValue = localPartitionedSplitCount.getAndSet(partitionedSplitCount);
-                nodeTotalPartitionedSplitCount.addAndGet(partitionedSplitCount - oldValue);
+                int newCount = partitionedSplits.getCount();
+                long newWeight = partitionedSplits.getWeightSum();
+                int countDelta = newCount - localPartitionedSplitCount.getAndSet(newCount);
+                long weightDelta = newWeight - localPartitionedSplitWeight.getAndSet(newWeight);
+                if (countDelta != 0) {
+                    nodeTotalPartitionedSplitCount.addAndGet(countDelta);
+                }
+                if (weightDelta != 0) {
+                    nodeTotalPartitionedSplitWeight.addAndGet(weightDelta);
+                }
             }
 
-            public void cleanup()
+            private void clearLocalSplitInfo(boolean reportAsLeaked)
             {
-                int leakedSplits = localPartitionedSplitCount.getAndSet(0);
-                if (leakedSplits == 0) {
+                int leakedCount = localPartitionedSplitCount.getAndSet(0);
+                long leakedWeight = localPartitionedSplitWeight.getAndSet(0);
+                if (leakedCount == 0 && leakedWeight == 0) {
                     return;
                 }
 
-                log.error("BUG! %s for %s leaked with %s partitioned splits.  Cleaning up so server can continue to function.",
-                        getClass().getName(),
-                        taskId,
-                        leakedSplits);
+                if (reportAsLeaked) {
+                    log.error("BUG! %s for %s leaked with %s partitioned splits (weight: %s). Cleaning up so server can continue to function.",
+                            getClass().getName(),
+                            taskId,
+                            leakedCount,
+                            leakedWeight);
+                }
 
-                nodeTotalPartitionedSplitCount.addAndGet(-leakedSplits);
+                nodeTotalPartitionedSplitCount.addAndGet(-leakedCount);
+                nodeTotalPartitionedSplitWeight.addAndGet(-leakedWeight);
+            }
+
+            public void cleanup()
+            {
+                clearLocalSplitInfo(true);
             }
 
             @Override
@@ -166,23 +193,24 @@ public String toString()
                 return toStringHelper(this)
                         .add("taskId", taskId)
                         .add("splits", localPartitionedSplitCount)
+                        .add("weight", localPartitionedSplitWeight)
                         .toString();
             }
         }
     }
 
     public static class PartitionedSplitCountTracker
     {
-        private final IntConsumer splitSetter;
+        private final Consumer<PartitionedSplitsInfo> splitSetter;
 
-        public PartitionedSplitCountTracker(IntConsumer splitSetter)
+        public PartitionedSplitCountTracker(Consumer<PartitionedSplitsInfo> splitSetter)
         {
             this.splitSetter = requireNonNull(splitSetter, "splitSetter is null");
         }
 
-        public void setPartitionedSplitCount(int partitionedSplitCount)
+        public void setPartitionedSplits(PartitionedSplitsInfo partitionedSplits)
         {
-            splitSetter.accept(partitionedSplitCount);
+            splitSetter.accept(partitionedSplits);
         }
 
         @Override

diff --git a/core/trino-main/src/main/java/io/trino/execution/PartitionedSplitsInfo.java b/core/trino-main/src/main/java/io/trino/execution/PartitionedSplitsInfo.java
@@ -0,0 +1,77 @@
+/*
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package io.trino.execution;
+
+import static com.google.common.base.MoreObjects.toStringHelper;
+
+public final class PartitionedSplitsInfo
+{
+    private static final PartitionedSplitsInfo NO_SPLITS_INFO = new PartitionedSplitsInfo(0, 0);
+
+    private final int count;
+    private final long weightSum;
+
+    private PartitionedSplitsInfo(int splitCount, long splitsWeightSum)
+    {
+        this.count = splitCount;
+        this.weightSum = splitsWeightSum;
+    }
+
+    public int getCount()
+    {
+        return count;
+    }
+
+    public long getWeightSum()
+    {
+        return weightSum;
+    }
+
+    @Override
+    public int hashCode()
+    {
+        return (count * 31) + Long.hashCode(weightSum);
+    }
+
+    @Override
+    public boolean equals(Object other)
+    {
+        if (!(other instanceof PartitionedSplitsInfo)) {
+            return false;
+        }
+        PartitionedSplitsInfo otherInfo = (PartitionedSplitsInfo) other;
+        return this == otherInfo || (this.count == otherInfo.count && this.weightSum == otherInfo.weightSum);
+    }
+
+    @Override
+    public String toString()
+    {
+        return toStringHelper(this)
+                .add("count", count)
+                .add("weightSum", weightSum)
+                .toString();
+    }
+
+    public static PartitionedSplitsInfo forSplitCountAndWeightSum(int splitCount, long weightSum)
+    {
+        // Avoid allocating for the "no splits" case, also mask potential race condition between
+        // count and weight updates that might yield a positive weight with a count of 0
+        return splitCount == 0 ? NO_SPLITS_INFO : new PartitionedSplitsInfo(splitCount, weightSum);
+    }
+
+    public static PartitionedSplitsInfo forZeroSplits()
+    {
+        return NO_SPLITS_INFO;
+    }
+}
diff --git a/core/trino-main/src/main/java/io/trino/execution/RemoteTask.java b/core/trino-main/src/main/java/io/trino/execution/RemoteTask.java
@@ -55,15 +55,15 @@ public interface RemoteTask
      */
     void addFinalTaskInfoListener(StateChangeListener<TaskInfo> stateChangeListener);
 
-    ListenableFuture<Void> whenSplitQueueHasSpace(int threshold);
+    ListenableFuture<Void> whenSplitQueueHasSpace(long weightThreshold);
 
     void cancel();
 
     void abort();
 
-    int getPartitionedSplitCount();
+    PartitionedSplitsInfo getPartitionedSplitsInfo();
 
-    int getQueuedPartitionedSplitCount();
+    PartitionedSplitsInfo getQueuedPartitionedSplitsInfo();
 
     int getUnacknowledgedPartitionedSplitCount();
 }
diff --git a/core/trino-main/src/main/java/io/trino/execution/SqlTask.java b/core/trino-main/src/main/java/io/trino/execution/SqlTask.java
@@ -280,7 +280,9 @@ private TaskStatus createTaskStatus(TaskHolder taskHolder)
         }
 
         int queuedPartitionedDrivers = 0;
+        long queuedPartitionedSplitsWeight = 0L;
         int runningPartitionedDrivers = 0;
+        long runningPartitionedSplitsWeight = 0L;
         DataSize physicalWrittenDataSize = DataSize.ofBytes(0);
         DataSize userMemoryReservation = DataSize.ofBytes(0);
         DataSize systemMemoryReservation = DataSize.ofBytes(0);
@@ -294,7 +296,9 @@ private TaskStatus createTaskStatus(TaskHolder taskHolder)
             TaskInfo taskInfo = taskHolder.getFinalTaskInfo();
             TaskStats taskStats = taskInfo.getStats();
             queuedPartitionedDrivers = taskStats.getQueuedPartitionedDrivers();
+            queuedPartitionedSplitsWeight = taskStats.getQueuedPartitionedSplitsWeight();
             runningPartitionedDrivers = taskStats.getRunningPartitionedDrivers();
+            runningPartitionedSplitsWeight = taskStats.getRunningPartitionedSplitsWeight();
             physicalWrittenDataSize = taskStats.getPhysicalWrittenDataSize();
             userMemoryReservation = taskStats.getUserMemoryReservation();
             systemMemoryReservation = taskStats.getSystemMemoryReservation();
@@ -308,7 +312,9 @@ else if (taskHolder.getTaskExecution() != null) {
             for (PipelineContext pipelineContext : taskContext.getPipelineContexts()) {
                 PipelineStatus pipelineStatus = pipelineContext.getPipelineStatus();
                 queuedPartitionedDrivers += pipelineStatus.getQueuedPartitionedDrivers();
+                queuedPartitionedSplitsWeight += pipelineStatus.getQueuedPartitionedSplitsWeight();
                 runningPartitionedDrivers += pipelineStatus.getRunningPartitionedDrivers();
+                runningPartitionedSplitsWeight += pipelineStatus.getRunningPartitionedSplitsWeight();
                 physicalWrittenBytes += pipelineContext.getPhysicalWrittenDataSize();
             }
             physicalWrittenDataSize = succinctBytes(physicalWrittenBytes);
@@ -338,7 +344,9 @@ else if (taskHolder.getTaskExecution() != null) {
                 revocableMemoryReservation,
                 fullGcCount,
                 fullGcTime,
-                dynamicFiltersVersion);
+                dynamicFiltersVersion,
+                queuedPartitionedSplitsWeight,
+                runningPartitionedSplitsWeight);
     }
 
     private TaskStats getTaskStats(TaskHolder taskHolder)

diff --git a/core/trino-main/src/main/java/io/trino/execution/SqlTaskExecution.java b/core/trino-main/src/main/java/io/trino/execution/SqlTaskExecution.java
@@ -37,6 +37,7 @@
 import io.trino.operator.PipelineExecutionStrategy;
 import io.trino.operator.StageExecutionDescriptor;
 import io.trino.operator.TaskContext;
+import io.trino.spi.SplitWeight;
 import io.trino.sql.planner.LocalExecutionPlanner.LocalExecutionPlan;
 import io.trino.sql.planner.plan.PlanNodeId;
 
@@ -371,7 +372,7 @@ private void mergeIntoPendingSplits(PlanNodeId planNodeId, Set<ScheduledSplit> s
         DriverSplitRunnerFactory partitionedDriverFactory = driverRunnerFactoriesWithSplitLifeCycle.get(planNodeId);
         PendingSplitsForPlanNode pendingSplitsForPlanNode = pendingSplitsByPlanNode.get(planNodeId);
 
-        partitionedDriverFactory.splitsAdded(scheduledSplits.size());
+        partitionedDriverFactory.splitsAdded(scheduledSplits.size(), SplitWeight.rawValueSum(scheduledSplits, scheduledSplit -> scheduledSplit.getSplit().getSplitWeight()));
         for (ScheduledSplit scheduledSplit : scheduledSplits) {
             Lifespan lifespan = scheduledSplit.getSplit().getLifespan();
             checkLifespan(partitionedDriverFactory.getPipelineExecutionStrategy(), lifespan);
@@ -933,7 +934,8 @@ public DriverSplitRunner createDriverRunner(@Nullable ScheduledSplit partitioned
             status.incrementPendingCreation(pipelineContext.getPipelineId(), lifespan);
             // create driver context immediately so the driver existence is recorded in the stats
             // the number of drivers is used to balance work across nodes
-            DriverContext driverContext = pipelineContext.addDriverContext(lifespan);
+            long splitWeight = partitionedSplit == null ? 0 : partitionedSplit.getSplit().getSplitWeight().getRawValue();
+            DriverContext driverContext = pipelineContext.addDriverContext(lifespan, splitWeight);
             return new DriverSplitRunner(this, driverContext, partitionedSplit, lifespan);
         }
 
@@ -1003,9 +1005,9 @@ public OptionalInt getDriverInstances()
             return driverFactory.getDriverInstances();
         }
 
-        public void splitsAdded(int count)
+        public void splitsAdded(int count, long weightSum)
         {
-            pipelineContext.splitsAdded(count);
+            pipelineContext.splitsAdded(count, weightSum);
         }
     }