apache · xushiyan · May 18, 2023 · May 17, 2023 · xushiyan · May 17, 2023
diff --git a/...t/src/main/java/org/apache/hudi/execution/bulkinsert/RDDCustomColumnsSortPartitioner.java b/...t/src/main/java/org/apache/hudi/execution/bulkinsert/RDDCustomColumnsSortPartitioner.java
@@ -30,9 +30,10 @@
 import java.util.Arrays;
 
 /**
- * A partitioner that does sort based on specified column values for each RDD partition.
+ * A partitioner that globally sorts a {@link JavaRDD<HoodieRecord>} based on partition path column and custom columns.
  *
- * @param <T> HoodieRecordPayload type
+ * @see GlobalSortPartitioner
+ * @see BulkInsertSortMode#GLOBAL_SORT
  */
 public class RDDCustomColumnsSortPartitioner<T>
     implements BulkInsertPartitioner<JavaRDD<HoodieRecord<T>>> {

diff --git a/...t/src/main/java/org/apache/hudi/execution/bulkinsert/RowCustomColumnsSortPartitioner.java b/...t/src/main/java/org/apache/hudi/execution/bulkinsert/RowCustomColumnsSortPartitioner.java
@@ -28,7 +28,10 @@
 import java.util.Arrays;
 
 /**
- * A partitioner that does sorting based on specified column values for each spark partitions.
+ * A partitioner that globally sorts a {@link Dataset<Row>} based on partition path column and custom columns.
+ *
+ * @see GlobalSortPartitionerWithRows
+ * @see BulkInsertSortMode#GLOBAL_SORT
  */
 public class RowCustomColumnsSortPartitioner implements BulkInsertPartitioner<Dataset<Row>> {
 

diff --git a/...t/java/org/apache/hudi/execution/bulkinsert/TestBulkInsertInternalPartitionerForRows.java b/...t/java/org/apache/hudi/execution/bulkinsert/TestBulkInsertInternalPartitionerForRows.java
@@ -55,7 +55,7 @@
  */
 public class TestBulkInsertInternalPartitionerForRows extends HoodieClientTestHarness {
 
-  private static final Comparator<Row> KEY_COMPARATOR =
+  private static final Comparator<Row> DEFAULT_KEY_COMPARATOR =
       Comparator.comparing(o -> (o.getAs(HoodieRecord.PARTITION_PATH_METADATA_FIELD) + "+" + o.getAs(HoodieRecord.RECORD_KEY_METADATA_FIELD)));
 
   @BeforeEach
@@ -103,8 +103,7 @@ public void testBulkInsertInternalPartitioner(BulkInsertSortMode sortMode,
                                                 boolean isGloballySorted,
                                                 boolean isLocallySorted,
                                                 boolean populateMetaFields) {
-    Dataset<Row> records1 = generateTestRecords();
-    Dataset<Row> records2 = generateTestRecords();
+    Dataset<Row> records = generateTestRecords();
 
     HoodieWriteConfig config = HoodieWriteConfig
         .newBuilder()
@@ -116,36 +115,24 @@ public void testBulkInsertInternalPartitioner(BulkInsertSortMode sortMode,
 
     testBulkInsertInternalPartitioner(
         BulkInsertInternalPartitionerWithRowsFactory.get(config, isTablePartitioned, enforceNumOutputPartitions),
-        records1,
+        records,
         enforceNumOutputPartitions,
         isGloballySorted,
         isLocallySorted,
-        generateExpectedPartitionNumRecords(records1),
-        Option.empty(),
-        populateMetaFields);
-    testBulkInsertInternalPartitioner(
-        BulkInsertInternalPartitionerWithRowsFactory.get(config, isTablePartitioned, enforceNumOutputPartitions),
-        records2,
-        enforceNumOutputPartitions,
-        isGloballySorted,
-        isLocallySorted,
-        generateExpectedPartitionNumRecords(records2),
+        generateExpectedPartitionNumRecords(records),
         Option.empty(),
         populateMetaFields);
   }
 
   @Test
   public void testCustomColumnSortPartitionerWithRows() {
-    Dataset<Row> records1 = generateTestRecords();
-    Dataset<Row> records2 = generateTestRecords();
-    String sortColumnString = records1.columns()[5];
+    Dataset<Row> records = generateTestRecords();
+    String sortColumnString = records.columns()[5];
     String[] sortColumns = sortColumnString.split(",");
     Comparator<Row> comparator = getCustomColumnComparator(sortColumns);
 
     testBulkInsertInternalPartitioner(new RowCustomColumnsSortPartitioner(sortColumns),
-        records1, true, false, true, generateExpectedPartitionNumRecords(records1), Option.of(comparator), true);
-    testBulkInsertInternalPartitioner(new RowCustomColumnsSortPartitioner(sortColumns),
-        records2, true, false, true, generateExpectedPartitionNumRecords(records2), Option.of(comparator), true);
+        records, true, true, true, generateExpectedPartitionNumRecords(records), Option.of(comparator), true);
 
     HoodieWriteConfig config = HoodieWriteConfig
         .newBuilder()
@@ -154,9 +141,7 @@ public void testCustomColumnSortPartitionerWithRows() {
         .withUserDefinedBulkInsertPartitionerSortColumns(sortColumnString)
         .build();
     testBulkInsertInternalPartitioner(new RowCustomColumnsSortPartitioner(config),
-        records1, true, false, true, generateExpectedPartitionNumRecords(records1), Option.of(comparator), true);
-    testBulkInsertInternalPartitioner(new RowCustomColumnsSortPartitioner(config),
-        records2, true, false, true, generateExpectedPartitionNumRecords(records2), Option.of(comparator), true);
+        records, true, true, true, generateExpectedPartitionNumRecords(records), Option.of(comparator), true);
   }
 
   private void testBulkInsertInternalPartitioner(BulkInsertPartitioner partitioner,
@@ -227,13 +212,13 @@ public Dataset<Row> generateTestRecords() {
 
   private void verifyRowsAscendingOrder(List<Row> records, Option<Comparator<Row>> comparator) {
     List<Row> expectedRecords = new ArrayList<>(records);
-    Collections.sort(expectedRecords, comparator.orElse(KEY_COMPARATOR));
+    Collections.sort(expectedRecords, comparator.orElse(DEFAULT_KEY_COMPARATOR));
     assertEquals(expectedRecords, records);
   }
 
   private Comparator<Row> getCustomColumnComparator(String[] sortColumns) {
     Comparator<Row> comparator = Comparator.comparing(row -> {
-      StringBuilder sb = new StringBuilder();
+      StringBuilder sb = new StringBuilder(row.getAs(HoodieRecord.PARTITION_PATH_METADATA_FIELD));
       for (String col : sortColumns) {
         sb.append(row.getAs(col).toString());
       }