apache · jshmchenxi · May 10, 2021 · May 17, 2021 · rdblue · May 20, 2021
diff --git a/core/src/main/java/org/apache/iceberg/TableProperties.java b/core/src/main/java/org/apache/iceberg/TableProperties.java
@@ -90,6 +90,12 @@ private TableProperties() {
   public static final String ORC_VECTORIZATION_ENABLED = "read.orc.vectorization.enabled";
   public static final boolean ORC_VECTORIZATION_ENABLED_DEFAULT = false;
 
+  public static final String LOCALITY_ENABLED = "read.locality.enabled";
+  public static final String LOCALITY_ENABLED_DEFAULT = null;
+
+  public static final String LOCALITY_TASK_INITIALIZE_THREADS = "read.locality.task.initialize.threads";
+  public static final int LOCALITY_TASK_INITIALIZE_THREADS_DEFAULT = 1;
+
   public static final String OBJECT_STORE_ENABLED = "write.object-storage.enabled";
   public static final boolean OBJECT_STORE_ENABLED_DEFAULT = false;
 

diff --git a/spark/src/main/java/org/apache/iceberg/spark/SparkReadOptions.java b/spark/src/main/java/org/apache/iceberg/spark/SparkReadOptions.java
@@ -48,6 +48,9 @@ private SparkReadOptions() {
   // Overrides the table's read.parquet.vectorization.batch-size
   public static final String VECTORIZATION_BATCH_SIZE = "batch-size";
 
+  // Overrides the table's read.locality.enabled
+  public static final String LOCALITY_ENABLED = "locality";
+
   // Set ID that is used to fetch file scan tasks
   public static final String FILE_SCAN_TASK_SET_ID = "file-scan-task-set-id";
 }
diff --git a/spark/src/main/java/org/apache/iceberg/spark/SparkUtil.java b/spark/src/main/java/org/apache/iceberg/spark/SparkUtil.java
@@ -20,21 +20,28 @@
 package org.apache.iceberg.spark;
 
 import java.util.List;
+import java.util.Map;
+import java.util.Set;
 import java.util.function.BiFunction;
 import java.util.function.Function;
 import java.util.stream.Collectors;
 import org.apache.iceberg.PartitionField;
 import org.apache.iceberg.PartitionSpec;
 import org.apache.iceberg.Table;
+import org.apache.iceberg.TableProperties;
 import org.apache.iceberg.hadoop.HadoopFileIO;
 import org.apache.iceberg.io.FileIO;
 import org.apache.iceberg.relocated.com.google.common.base.Preconditions;
+import org.apache.iceberg.relocated.com.google.common.collect.ImmutableSet;
 import org.apache.iceberg.transforms.Transform;
 import org.apache.iceberg.transforms.UnknownTransform;
 import org.apache.iceberg.util.Pair;
+import org.apache.iceberg.util.PropertyUtil;
 import org.apache.spark.util.SerializableConfiguration;
 
 public class SparkUtil {
+  private static final Set<String> LOCALITY_WHITELIST_FS = ImmutableSet.of("hdfs");
+
   private SparkUtil() {
   }
 
@@ -100,4 +107,11 @@ public static <C, T> Pair<C, T> catalogAndIdentifier(List<String> nameParts,
       }
     }
   }
+
+  public static boolean isLocalityEnabledDefault(Map<String, String> tableProperties, String fsScheme) {
+    String tableLocalityProp = PropertyUtil.propertyAsString(tableProperties, TableProperties.LOCALITY_ENABLED,
+        TableProperties.LOCALITY_ENABLED_DEFAULT);
+    return tableLocalityProp == null ? LOCALITY_WHITELIST_FS.contains(fsScheme) :
+        Boolean.parseBoolean(tableLocalityProp);
+  }
 }
diff --git a/spark2/src/main/java/org/apache/iceberg/spark/source/Reader.java b/spark2/src/main/java/org/apache/iceberg/spark/source/Reader.java
@@ -21,9 +21,15 @@
 
 import java.io.IOException;
 import java.io.Serializable;
+import java.util.ArrayList;
 import java.util.List;
 import java.util.Locale;
 import java.util.Map;
+import java.util.concurrent.ExecutionException;
+import java.util.concurrent.ExecutorService;
+import java.util.concurrent.Executors;
+import java.util.concurrent.Future;
+import java.util.function.Supplier;
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.FileSystem;
 import org.apache.hadoop.fs.Path;
@@ -45,11 +51,12 @@
 import org.apache.iceberg.hadoop.Util;
 import org.apache.iceberg.io.CloseableIterable;
 import org.apache.iceberg.relocated.com.google.common.base.Preconditions;
-import org.apache.iceberg.relocated.com.google.common.collect.ImmutableSet;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
+import org.apache.iceberg.relocated.com.google.common.util.concurrent.ThreadFactoryBuilder;
 import org.apache.iceberg.spark.SparkFilters;
 import org.apache.iceberg.spark.SparkReadOptions;
 import org.apache.iceberg.spark.SparkSchemaUtil;
+import org.apache.iceberg.spark.SparkUtil;
 import org.apache.iceberg.util.PropertyUtil;
 import org.apache.iceberg.util.TableScanUtil;
 import org.apache.spark.api.java.JavaSparkContext;
@@ -72,12 +79,14 @@
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
+import static org.apache.iceberg.TableProperties.LOCALITY_TASK_INITIALIZE_THREADS;
+import static org.apache.iceberg.TableProperties.LOCALITY_TASK_INITIALIZE_THREADS_DEFAULT;
+
 class Reader implements DataSourceReader, SupportsScanColumnarBatch, SupportsPushDownFilters,
     SupportsPushDownRequiredColumns, SupportsReportStatistics {
   private static final Logger LOG = LoggerFactory.getLogger(Reader.class);
 
   private static final Filter[] NO_FILTERS = new Filter[0];
-  private static final ImmutableSet<String> LOCALITY_WHITELIST_FS = ImmutableSet.of("hdfs");
 
   private final JavaSparkContext sparkContext;
   private final Table table;
@@ -146,8 +155,8 @@ class Reader implements DataSourceReader, SupportsScanColumnarBatch, SupportsPus
         LOG.warn("Failed to get Hadoop Filesystem", ioe);
       }
       String scheme = fsscheme; // Makes an effectively final version of scheme
-      this.localityPreferred = options.get("locality").map(Boolean::parseBoolean)
-          .orElseGet(() -> LOCALITY_WHITELIST_FS.contains(scheme));
+      this.localityPreferred = options.get(SparkReadOptions.LOCALITY_ENABLED).map(Boolean::parseBoolean)
+          .orElseGet(() -> SparkUtil.isLocalityEnabledDefault(table.properties(), scheme));
     } else {
       this.localityPreferred = false;
     }
@@ -206,11 +215,8 @@ public List<InputPartition<ColumnarBatch>> planBatchInputPartitions() {
     Broadcast<Table> tableBroadcast = sparkContext.broadcast(SerializableTable.copyOf(table));
 
     List<InputPartition<ColumnarBatch>> readTasks = Lists.newArrayList();
-    for (CombinedScanTask task : tasks()) {
-      readTasks.add(new ReadTask<>(
-          task, tableBroadcast, expectedSchemaString, caseSensitive,
-          localityPreferred, new BatchReaderFactory(batchSize)));
-    }
+
+    initializeReadTasks(readTasks, tableBroadcast, expectedSchemaString, () -> new BatchReaderFactory(batchSize));
     LOG.info("Batching input partitions with {} tasks.", readTasks.size());
 
     return readTasks;
@@ -227,15 +233,58 @@ public List<InputPartition<InternalRow>> planInputPartitions() {
     Broadcast<Table> tableBroadcast = sparkContext.broadcast(SerializableTable.copyOf(table));
 
     List<InputPartition<InternalRow>> readTasks = Lists.newArrayList();
-    for (CombinedScanTask task : tasks()) {
-      readTasks.add(new ReadTask<>(
-          task, tableBroadcast, expectedSchemaString, caseSensitive,
-          localityPreferred, InternalRowReaderFactory.INSTANCE));
-    }
+
+    initializeReadTasks(readTasks, tableBroadcast, expectedSchemaString, () -> InternalRowReaderFactory.INSTANCE);
 
     return readTasks;
   }
 
+  /**
+   * Initialize ReadTasks with multi threads as get block locations can be slow
+   *
+   * @param readTasks Result list to return
+   */
+  private <T> void initializeReadTasks(List<InputPartition<T>> readTasks,
+      Broadcast<Table> tableBroadcast, String expectedSchemaString, Supplier<ReaderFactory<T>> supplier) {
+    int taskInitThreads = Math.max(1, PropertyUtil.propertyAsInt(table.properties(), LOCALITY_TASK_INITIALIZE_THREADS,
+        LOCALITY_TASK_INITIALIZE_THREADS_DEFAULT));
+
+    if (!localityPreferred || taskInitThreads == 1) {
+      for (CombinedScanTask task : tasks()) {
+        readTasks.add(new ReadTask<>(
+            task, tableBroadcast, expectedSchemaString, caseSensitive,
+            localityPreferred, supplier.get()));
+      }
+      return;
+    }
+
+    List<Future<ReadTask<T>>> futures = new ArrayList<>();
+
+    final ExecutorService pool = Executors.newFixedThreadPool(
+        taskInitThreads,
+        new ThreadFactoryBuilder()
+            .setDaemon(true)
+            .setNameFormat("Init-ReadTask-%d")
+            .build());
+
+    List<CombinedScanTask> scanTasks = tasks();
+    for (int i = 0; i < scanTasks.size(); i++) {
+      final int curIndex = i;
+      futures.add(pool.submit(() -> new ReadTask<>(scanTasks.get(curIndex), tableBroadcast,
+          expectedSchemaString, caseSensitive, true, supplier.get())));
+    }
+
+    try {
+      for (int i = 0; i < futures.size(); i++) {
+        readTasks.set(i, futures.get(i).get());
+      }
+    } catch (InterruptedException | ExecutionException e) {
+      throw new RuntimeException("Exception caught in multi-thread initializing ReadTask", e);
+    } finally {
+      pool.shutdownNow();
+    }
+  }
+
   @Override
   public Filter[] pushFilters(Filter[] filters) {
     this.tasks = null; // invalidate cached tasks, if present

diff --git a/spark3/src/main/java/org/apache/iceberg/spark/Spark3Util.java b/spark3/src/main/java/org/apache/iceberg/spark/Spark3Util.java
@@ -103,7 +103,6 @@
 
 public class Spark3Util {
 
-  private static final Set<String> LOCALITY_WHITELIST_FS = ImmutableSet.of("hdfs");
   private static final Set<String> RESERVED_PROPERTIES = ImmutableSet.of(
       TableCatalog.PROP_LOCATION, TableCatalog.PROP_PROVIDER);
   private static final Joiner DOT = Joiner.on(".");
@@ -483,11 +482,13 @@ public static String describe(org.apache.iceberg.SortOrder order) {
     return Joiner.on(", ").join(SortOrderVisitor.visit(order, DescribeSortOrderVisitor.INSTANCE));
   }
 
-  public static boolean isLocalityEnabled(FileIO io, String location, CaseInsensitiveStringMap readOptions) {
+  public static boolean isLocalityEnabled(FileIO io, String location, Map<String, String> tableProperties,
+      CaseInsensitiveStringMap readOptions) {
     InputFile in = io.newInputFile(location);
     if (in instanceof HadoopInputFile) {
       String scheme = ((HadoopInputFile) in).getFileSystem().getScheme();
-      return readOptions.getBoolean("locality", LOCALITY_WHITELIST_FS.contains(scheme));
+      return readOptions.getBoolean(
+          SparkReadOptions.LOCALITY_ENABLED, SparkUtil.isLocalityEnabledDefault(tableProperties, scheme));
     }
     return false;
   }

diff --git a/spark3/src/main/java/org/apache/iceberg/spark/source/SparkBatchScan.java b/spark3/src/main/java/org/apache/iceberg/spark/source/SparkBatchScan.java
@@ -20,10 +20,15 @@
 package org.apache.iceberg.spark.source;
 
 import java.io.Serializable;
+import java.util.ArrayList;
 import java.util.Collection;
 import java.util.Collections;
 import java.util.List;
 import java.util.Map;
+import java.util.concurrent.ExecutionException;
+import java.util.concurrent.ExecutorService;
+import java.util.concurrent.Executors;
+import java.util.concurrent.Future;
 import java.util.stream.Collectors;
 import org.apache.iceberg.CombinedScanTask;
 import org.apache.iceberg.FileFormat;
@@ -36,6 +41,7 @@
 import org.apache.iceberg.expressions.Expression;
 import org.apache.iceberg.hadoop.HadoopInputFile;
 import org.apache.iceberg.hadoop.Util;
+import org.apache.iceberg.relocated.com.google.common.util.concurrent.ThreadFactoryBuilder;
 import org.apache.iceberg.spark.Spark3Util;
 import org.apache.iceberg.spark.SparkSchemaUtil;
 import org.apache.iceberg.util.PropertyUtil;
@@ -58,6 +64,9 @@
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
+import static org.apache.iceberg.TableProperties.LOCALITY_TASK_INITIALIZE_THREADS;
+import static org.apache.iceberg.TableProperties.LOCALITY_TASK_INITIALIZE_THREADS_DEFAULT;
+
 abstract class SparkBatchScan implements Scan, Batch, SupportsReportStatistics {
   private static final Logger LOG = LoggerFactory.getLogger(SparkBatchScan.class);
 
@@ -80,7 +89,7 @@ abstract class SparkBatchScan implements Scan, Batch, SupportsReportStatistics {
     this.caseSensitive = caseSensitive;
     this.expectedSchema = expectedSchema;
     this.filterExpressions = filters != null ? filters : Collections.emptyList();
-    this.localityPreferred = Spark3Util.isLocalityEnabled(table.io(), table.location(), options);
+    this.localityPreferred = Spark3Util.isLocalityEnabled(table.io(), table.location(), table.properties(), options);
     this.batchSize = Spark3Util.batchSize(table.properties(), options);
     this.options = options;
   }
@@ -125,10 +134,40 @@ public InputPartition[] planInputPartitions() {
 
     List<CombinedScanTask> scanTasks = tasks();
     InputPartition[] readTasks = new InputPartition[scanTasks.size()];
-    for (int i = 0; i < scanTasks.size(); i++) {
-      readTasks[i] = new ReadTask(
-          scanTasks.get(i), tableBroadcast, expectedSchemaString,
-          caseSensitive, localityPreferred);
+
+    int taskInitThreads = Math.max(1, PropertyUtil.propertyAsInt(table.properties(), LOCALITY_TASK_INITIALIZE_THREADS,
+        LOCALITY_TASK_INITIALIZE_THREADS_DEFAULT));
+    if (localityPreferred && taskInitThreads > 1) {
+      List<Future<ReadTask>> futures = new ArrayList<>();
+
+      final ExecutorService pool = Executors.newFixedThreadPool(
+          taskInitThreads,
+          new ThreadFactoryBuilder()
+              .setDaemon(true)
+              .setNameFormat("Init-ReadTask-%d")
+              .build());
+
+      for (int i = 0; i < scanTasks.size(); i++) {
+        final int curIndex = i;
+        futures.add(pool.submit(() -> new ReadTask(scanTasks.get(curIndex), tableBroadcast, expectedSchemaString,
+            caseSensitive, true)));
+      }
+
+      try {
+        for (int i = 0; i < futures.size(); i++) {
+          readTasks[i] = futures.get(i).get();
+        }
+      } catch (InterruptedException | ExecutionException e) {
+        throw new RuntimeException("Exception in multi-thread initializing ReadTask", e);
+      } finally {
+        pool.shutdownNow();
+      }
+    } else {
+      for (int i = 0; i < scanTasks.size(); i++) {
+        readTasks[i] = new ReadTask(
+            scanTasks.get(i), tableBroadcast, expectedSchemaString,
+            caseSensitive, localityPreferred);
+      }
     }
 
     return readTasks;