apache · LuciferYang · Sep 8, 2022 · Sep 9, 2022 · Sep 9, 2022 · tgravescs
diff --git a/common/network-common/src/main/java/org/apache/spark/network/util/DBProvider.java b/common/network-common/src/main/java/org/apache/spark/network/util/DBProvider.java
@@ -20,7 +20,6 @@
 import java.io.IOException;
 
 import com.fasterxml.jackson.databind.ObjectMapper;
-import com.google.common.annotations.VisibleForTesting;
 
 import org.apache.spark.network.shuffledb.DB;
 import org.apache.spark.network.shuffledb.DBBackend;
@@ -48,17 +47,4 @@ public static DB initDB(
       }
       return null;
     }
-
-    @VisibleForTesting
-    public static DB initDB(DBBackend dbBackend, File file) throws IOException {
-      if (file != null) {
-        switch (dbBackend) {
-          case LEVELDB: return new LevelDB(LevelDBProvider.initLevelDB(file));
-          case ROCKSDB: return new RocksDB(RocksDBProvider.initRocksDB(file));
-          default:
-            throw new IllegalArgumentException("Unsupported DBBackend: " + dbBackend);
-        }
-      }
-      return null;
-    }
 }
diff --git a/common/network-common/src/main/java/org/apache/spark/network/util/LevelDBProvider.java b/common/network-common/src/main/java/org/apache/spark/network/util/LevelDBProvider.java
@@ -21,7 +21,6 @@
 import java.io.IOException;
 
 import com.fasterxml.jackson.databind.ObjectMapper;
-import com.google.common.annotations.VisibleForTesting;
 import org.fusesource.leveldbjni.JniDBFactory;
 import org.fusesource.leveldbjni.internal.NativeDB;
 import org.iq80.leveldb.DB;
@@ -85,14 +84,6 @@ public static DB initLevelDB(File dbFile, StoreVersion version, ObjectMapper map
     return tmpDb;
   }
 
-  @VisibleForTesting
 test("external shuffle service") { 
   val shuffleServicePort = YarnTestAccessor.getShuffleServicePort 
   val shuffleService = YarnTestAccessor.getShuffleServiceInstance 
   val registeredExecFile = YarnTestAccessor.getRegisteredExecutorFile(shuffleService) 
   val result = File.createTempFile("result", null, tempDir) 
   val finalState = runSpark( 
     false, 
     mainClassName(YarnExternalShuffleDriver.getClass), 
     appArgs = if (registeredExecFile != null) { 
       Seq(result.getAbsolutePath, registeredExecFile.getAbsolutePath) 
     } else { 
       Seq(result.getAbsolutePath) 
     }, 
     extraConf = extraSparkConf() 
   ) 
   checkResult(finalState, result) 
   <td><code>spark.shuffle.service.db.enabled</code></td> 
   <td>true</td> 
   <td> 
     Store External Shuffle service state on local disk so that when the external shuffle service is restarted, it will 
     automatically reload info on current executors.  This only affects standalone mode (yarn always has this behavior 
     enabled).  You should also enable <code>spark.worker.cleanup.enabled</code>, to ensure that the state 
     eventually gets cleaned up.  This config may be removed in the future. 
   </td> 
   <td>3.0.0</td> 
 </tr> 
 test("external shuffle service") { 
   val shuffleServicePort = YarnTestAccessor.getShuffleServicePort 
   val shuffleService = YarnTestAccessor.getShuffleServiceInstance 
  
   val registeredExecFile = YarnTestAccessor.getRegisteredExecutorFile(shuffleService) 
  
   val result = File.createTempFile("result", null, tempDir) 
   val finalState = runSpark( 
     false, 
     mainClassName(YarnExternalShuffleDriver.getClass), 
     appArgs = if (registeredExecFile != null) { 
       Seq(result.getAbsolutePath, registeredExecFile.getAbsolutePath) 
     } else { 
       Seq(result.getAbsolutePath) 
     }, 
     extraConf = extraSparkConf() 
   ) 
   checkResult(finalState, result) 
   <td><code>spark.shuffle.service.db.enabled</code></td> 
   <td>true</td> 
   <td> 
     Store External Shuffle service state on local disk so that when the external shuffle service is restarted, it will 
     automatically reload info on current executors.  This only affects standalone mode (yarn always has this behavior 
     enabled).  You should also enable <code>spark.worker.cleanup.enabled</code>, to ensure that the state 
     eventually gets cleaned up.  This config may be removed in the future. 
   </td> 
   <td>3.0.0</td> 
 </tr> 
-  static DB initLevelDB(File file) throws IOException {
-    Options options = new Options();
-    options.createIfMissing(true);
-    JniDBFactory factory = new JniDBFactory();
-    return factory.open(file, options);
-  }
-
   private static class LevelDBLogger implements org.iq80.leveldb.Logger {
     private static final Logger LOG = LoggerFactory.getLogger(LevelDBLogger.class);
 

diff --git a/common/network-common/src/main/java/org/apache/spark/network/util/RocksDBProvider.java b/common/network-common/src/main/java/org/apache/spark/network/util/RocksDBProvider.java
@@ -22,7 +22,6 @@
 import java.util.Objects;
 
 import com.fasterxml.jackson.databind.ObjectMapper;
-import com.google.common.annotations.VisibleForTesting;
 import org.rocksdb.*;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -106,28 +105,6 @@ public static RocksDB initRockDB(File dbFile, StoreVersion version, ObjectMapper
       return tmpDb;
     }
 
-    @VisibleForTesting
-    static RocksDB initRocksDB(File file) throws IOException {
-      BloomFilter fullFilter =
-        new BloomFilter(10.0D /* BloomFilter.DEFAULT_BITS_PER_KEY */, false);
-      BlockBasedTableConfig tableFormatConfig = new BlockBasedTableConfig()
-        .setFilterPolicy(fullFilter)
-        .setEnableIndexCompression(false)
-        .setIndexBlockRestartInterval(8)
-        .setFormatVersion(5);
-
-      Options dbOptions = new Options();
-      dbOptions.setCreateIfMissing(true);
-      dbOptions.setBottommostCompressionType(CompressionType.ZSTD_COMPRESSION);
-      dbOptions.setCompressionType(CompressionType.LZ4_COMPRESSION);
-      dbOptions.setTableFormatConfig(tableFormatConfig);
-      try {
-        return RocksDB.open(dbOptions, file.toString());
-      } catch (RocksDBException e) {
-        throw new IOException("Unable to open state store", e);
-      }
-    }
-
     private static class RocksDBLogger extends org.rocksdb.Logger {
         private static final Logger LOG = LoggerFactory.getLogger(RocksDBLogger.class);
 

diff --git a/...nagers/yarn/src/test/scala/org/apache/spark/deploy/yarn/YarnShuffleIntegrationSuite.scala b/...nagers/yarn/src/test/scala/org/apache/spark/deploy/yarn/YarnShuffleIntegrationSuite.scala
@@ -20,6 +20,7 @@ package org.apache.spark.deploy.yarn
 import java.io.File
 import java.nio.charset.StandardCharsets
 
+import com.fasterxml.jackson.databind.ObjectMapper
 import com.google.common.io.Files
 import org.apache.commons.io.FileUtils
 import org.apache.hadoop.yarn.conf.YarnConfiguration
@@ -32,7 +33,7 @@ import org.apache.spark.internal.Logging
 import org.apache.spark.internal.config._
 import org.apache.spark.internal.config.Network._
 import org.apache.spark.network.shuffle.ShuffleTestAccessor
-import org.apache.spark.network.shuffledb.DBBackend
+import org.apache.spark.network.shuffledb.{DBBackend, StoreVersion}
 import org.apache.spark.network.yarn.{YarnShuffleService, YarnTestAccessor}
 import org.apache.spark.tags.ExtendedYarnTest
 
@@ -176,8 +177,8 @@ private object YarnExternalShuffleDriver extends Logging with Matchers {
         logWarning(s"Use ${dbBackend.name()} as the implementation of " +
           s"${SHUFFLE_SERVICE_DB_BACKEND.key}")
         FileUtils.copyDirectory(registeredExecFile, execStateCopy)
-        assert(!ShuffleTestAccessor
-          .reloadRegisteredExecutors(dbBackend, execStateCopy).isEmpty)
+        assert(!ShuffleTestAccessor.reloadRegisteredExecutors(
+          dbBackend, execStateCopy, new StoreVersion(1, 0), new ObjectMapper()).isEmpty)
       }
     } finally {
       sc.stop()

diff --git a/...e-managers/yarn/src/test/scala/org/apache/spark/network/shuffle/ShuffleTestAccessor.scala b/...e-managers/yarn/src/test/scala/org/apache/spark/network/shuffle/ShuffleTestAccessor.scala
@@ -21,13 +21,13 @@ import java.nio.channels.FileChannel
 import java.util.List
 import java.util.concurrent.ConcurrentMap
 
+import com.fasterxml.jackson.databind.ObjectMapper
 import org.apache.hadoop.yarn.api.records.ApplicationId
 
 import org.apache.spark.network.shuffle.ExternalShuffleBlockResolver.AppExecId
 import org.apache.spark.network.shuffle.RemoteBlockPushResolver._
 import org.apache.spark.network.shuffle.protocol.{ExecutorShuffleInfo, FinalizeShuffleMerge}
-import org.apache.spark.network.shuffledb.DB
-import org.apache.spark.network.shuffledb.DBBackend
+import org.apache.spark.network.shuffledb.{DB, DBBackend, StoreVersion}
 import org.apache.spark.network.util.{DBProvider, TransportConf}
 
 /**
@@ -212,9 +212,12 @@ object ShuffleTestAccessor {
   }
 
   def reloadRegisteredExecutors(
-    dbBackend: DBBackend,
-    file: File): ConcurrentMap[ExternalShuffleBlockResolver.AppExecId, ExecutorShuffleInfo] = {
-    val db = DBProvider.initDB(dbBackend, file)
+      dbBackend: DBBackend,
+      file: File,
+      version: StoreVersion,
+      mapper: ObjectMapper)
+    : ConcurrentMap[ExternalShuffleBlockResolver.AppExecId, ExecutorShuffleInfo] = {
+    val db = DBProvider.initDB(dbBackend, file, version, mapper)
     val result = ExternalShuffleBlockResolver.reloadRegisteredExecutors(db)
     db.close()
     result