fix comments

yabola · yabola · commit 2695f2568ee2 · 2023-03-14T23:14:12.000+08:00
diff --git a/arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java b/arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java
@@ -167,11 +167,6 @@ public VectorHolder read(VectorHolder reuse, int numValsToRead) {
                 .fixedWidthTypeBinaryBatchReader()
                 .nextBatch(vec, typeWidth, nullabilityHolder);
             break;
-          case TIMESTAMP_INT96:
-            vectorizedColumnIterator
-                .timestampInt96BatchReader()
-                .nextBatch(vec, typeWidth, nullabilityHolder);
-            break;
           case BOOLEAN:
             vectorizedColumnIterator.booleanBatchReader().nextBatch(vec, -1, nullabilityHolder);
             break;
@@ -198,6 +193,11 @@ public VectorHolder read(VectorHolder reuse, int numValsToRead) {
                 .timestampMillisBatchReader()
                 .nextBatch(vec, typeWidth, nullabilityHolder);
             break;
+          case TIMESTAMP_INT96:
+            vectorizedColumnIterator
+                .timestampInt96BatchReader()
+                .nextBatch(vec, typeWidth, nullabilityHolder);
+            break;
           case UUID:
             vectorizedColumnIterator
                 .fixedSizeBinaryBatchReader()
@@ -340,14 +340,6 @@ private void allocateVectorBasedOnTypeName(PrimitiveType primitive, Field arrowF
         vec.allocateNew();
         this.typeWidth = len;
         break;
-      case INT96:
-        int length = BigIntVector.TYPE_WIDTH;
-        this.readType = ReadType.TIMESTAMP_INT96;
-        this.vec = arrowField.createVector(rootAlloc);
-        vec.setInitialCapacity(batchSize * length);
-        vec.allocateNew();
-        this.typeWidth = length;
-        break;
       case BINARY:
         this.vec = arrowField.createVector(rootAlloc);
         // TODO: Possibly use the uncompressed page size info to set the initial capacity
@@ -368,6 +360,14 @@ private void allocateVectorBasedOnTypeName(PrimitiveType primitive, Field arrowF
         this.readType = ReadType.INT;
         this.typeWidth = (int) IntVector.TYPE_WIDTH;
         break;
+      case INT96:
+        int length = BigIntVector.TYPE_WIDTH;
+        this.readType = ReadType.TIMESTAMP_INT96;
+        this.vec = arrowField.createVector(rootAlloc);
+        vec.setInitialCapacity(batchSize * length);
+        vec.allocateNew();
+        this.typeWidth = length;
+        break;
       case FLOAT:
         Field floatField =
             new Field(
diff --git a/arrow/src/main/java/org/apache/iceberg/arrow/vectorized/parquet/VectorizedParquetDefinitionLevelReader.java b/arrow/src/main/java/org/apache/iceberg/arrow/vectorized/parquet/VectorizedParquetDefinitionLevelReader.java
@@ -456,7 +456,8 @@ protected void nextVal(
         ValuesAsBytesReader valuesReader,
         int typeWidth,
         byte[] byteArray) {
-      ByteBuffer buffer = valuesReader.getBuffer(12);
+      // 8 bytes (time of day nanos) + 4 bytes(julianDay) = 12 bytes
+      ByteBuffer buffer = valuesReader.getBuffer(12).order(ByteOrder.LITTLE_ENDIAN);
       long timestampInt96 = TimestampUtil.extractTimestampInt96(buffer);
       vector.getDataBuffer().setLong((long) idx * typeWidth, timestampInt96);
     }
diff --git a/spark/v2.4/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java b/spark/v2.4/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java
@@ -377,7 +377,6 @@ public long readLong() {
   }
 
   private static class TimestampInt96Reader extends UnboxedReader<Long> {
-    private static final long UNIX_EPOCH_JULIAN = 2_440_588L;
 
     TimestampInt96Reader(ColumnDescriptor desc) {
       super(desc);
@@ -392,11 +391,7 @@ public Long read(Long ignored) {
     public long readLong() {
       final ByteBuffer byteBuffer =
           column.nextBinary().toByteBuffer().order(ByteOrder.LITTLE_ENDIAN);
-      final long timeOfDayNanos = byteBuffer.getLong();
-      final int julianDay = byteBuffer.getInt();
-
-      return TimeUnit.DAYS.toMicros(julianDay - UNIX_EPOCH_JULIAN)
-          + TimeUnit.NANOSECONDS.toMicros(timeOfDayNanos);
+      return TimestampUtil.extractTimestampInt96(byteBuffer);
     }
   }
 
diff --git a/spark/v3.1/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java b/spark/v3.1/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java
@@ -378,7 +378,6 @@ public long readLong() {
   }
 
   private static class TimestampInt96Reader extends UnboxedReader<Long> {
-    private static final long UNIX_EPOCH_JULIAN = 2_440_588L;
 
     TimestampInt96Reader(ColumnDescriptor desc) {
       super(desc);
@@ -393,11 +392,7 @@ public Long read(Long ignored) {
     public long readLong() {
       final ByteBuffer byteBuffer =
           column.nextBinary().toByteBuffer().order(ByteOrder.LITTLE_ENDIAN);
-      final long timeOfDayNanos = byteBuffer.getLong();
-      final int julianDay = byteBuffer.getInt();
-
-      return TimeUnit.DAYS.toMicros(julianDay - UNIX_EPOCH_JULIAN)
-          + TimeUnit.NANOSECONDS.toMicros(timeOfDayNanos);
+      return TimestampUtil.extractTimestampInt96(byteBuffer);
     }
   }
 
diff --git a/spark/v3.2/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java b/spark/v3.2/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java
@@ -377,7 +377,6 @@ public long readLong() {
   }
 
   private static class TimestampInt96Reader extends UnboxedReader<Long> {
-    private static final long UNIX_EPOCH_JULIAN = 2_440_588L;
 
     TimestampInt96Reader(ColumnDescriptor desc) {
       super(desc);
@@ -392,11 +391,7 @@ public Long read(Long ignored) {
     public long readLong() {
       final ByteBuffer byteBuffer =
           column.nextBinary().toByteBuffer().order(ByteOrder.LITTLE_ENDIAN);
-      final long timeOfDayNanos = byteBuffer.getLong();
-      final int julianDay = byteBuffer.getInt();
-
-      return TimeUnit.DAYS.toMicros(julianDay - UNIX_EPOCH_JULIAN)
-          + TimeUnit.NANOSECONDS.toMicros(timeOfDayNanos);
+      return TimestampUtil.extractTimestampInt96(byteBuffer);
     }
   }
 
diff --git a/spark/v3.3/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java b/spark/v3.3/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java
@@ -25,9 +25,9 @@
 import java.util.Arrays;
 import java.util.List;
 import java.util.Map;
-import java.util.concurrent.TimeUnit;
 import org.apache.iceberg.MetadataColumns;
 import org.apache.iceberg.Schema;
+import org.apache.iceberg.arrow.vectorized.parquet.TimestampUtil;
 import org.apache.iceberg.parquet.ParquetSchemaUtil;
 import org.apache.iceberg.parquet.ParquetValueReader;
 import org.apache.iceberg.parquet.ParquetValueReaders;
@@ -377,7 +377,6 @@ public long readLong() {
   }
 
   private static class TimestampInt96Reader extends UnboxedReader<Long> {
-    private static final long UNIX_EPOCH_JULIAN = 2_440_588L;
 
     TimestampInt96Reader(ColumnDescriptor desc) {
       super(desc);
@@ -392,11 +391,7 @@ public Long read(Long ignored) {
     public long readLong() {
       final ByteBuffer byteBuffer =
           column.nextBinary().toByteBuffer().order(ByteOrder.LITTLE_ENDIAN);
-      final long timeOfDayNanos = byteBuffer.getLong();
-      final int julianDay = byteBuffer.getInt();
-
-      return TimeUnit.DAYS.toMicros(julianDay - UNIX_EPOCH_JULIAN)
-          + TimeUnit.NANOSECONDS.toMicros(timeOfDayNanos);
+      return TimestampUtil.extractTimestampInt96(byteBuffer);
     }
   }
 

Original file line number	Diff line number	Diff line change
`@@ -377,7 +377,6 @@ public long readLong() {`
`377`	`377`	`}`
`378`	`378`
`379`	`379`	`private static class TimestampInt96Reader extends UnboxedReader<Long> {`
`380`		`- private static final long UNIX_EPOCH_JULIAN = 2_440_588L;`
`381`	`380`
`382`	`381`	`TimestampInt96Reader(ColumnDescriptor desc) {`
`383`	`382`	`super(desc);`
`@@ -392,11 +391,7 @@ public Long read(Long ignored) {`
`392`	`391`	`public long readLong() {`
`393`	`392`	`final ByteBuffer byteBuffer =`
`394`	`393`	`column.nextBinary().toByteBuffer().order(ByteOrder.LITTLE_ENDIAN);`
`395`		`- final long timeOfDayNanos = byteBuffer.getLong();`
`396`		`- final int julianDay = byteBuffer.getInt();`
`397`		`-`
`398`		`- return TimeUnit.DAYS.toMicros(julianDay - UNIX_EPOCH_JULIAN)`
`399`		`- + TimeUnit.NANOSECONDS.toMicros(timeOfDayNanos);`
	`394`	`+ return TimestampUtil.extractTimestampInt96(byteBuffer);`
`400`	`395`	`}`
`401`	`396`	`}`
`402`	`397`
Original file line number	Diff line number	Diff line change
`@@ -378,7 +378,6 @@ public long readLong() {`
`378`	`378`	`}`
`379`	`379`
`380`	`380`	`private static class TimestampInt96Reader extends UnboxedReader<Long> {`
`381`		`- private static final long UNIX_EPOCH_JULIAN = 2_440_588L;`
`382`	`381`
`383`	`382`	`TimestampInt96Reader(ColumnDescriptor desc) {`
`384`	`383`	`super(desc);`
`@@ -393,11 +392,7 @@ public Long read(Long ignored) {`
`393`	`392`	`public long readLong() {`
`394`	`393`	`final ByteBuffer byteBuffer =`
`395`	`394`	`column.nextBinary().toByteBuffer().order(ByteOrder.LITTLE_ENDIAN);`
`396`		`- final long timeOfDayNanos = byteBuffer.getLong();`
`397`		`- final int julianDay = byteBuffer.getInt();`
`398`		`-`
`399`		`- return TimeUnit.DAYS.toMicros(julianDay - UNIX_EPOCH_JULIAN)`
`400`		`- + TimeUnit.NANOSECONDS.toMicros(timeOfDayNanos);`
	`395`	`+ return TimestampUtil.extractTimestampInt96(byteBuffer);`
`401`	`396`	`}`
`402`	`397`	`}`
`403`	`398`