apache · zhixingheyi-tian · Oct 9, 2022 · Oct 10, 2022 · Dec 6, 2022 · Dec 6, 2022
@@ -852,12 +852,23 @@ class ColumnReaderImplBase {
     current_encoding_ = encoding;
     current_decoder_->SetData(static_cast<int>(num_buffered_values_), buffer,
                               static_cast<int>(data_size));
+    if (!hasSet_uses_opt_) {
+      if (current_encoding_ == Encoding::PLAIN_DICTIONARY ||
+          current_encoding_ == Encoding::PLAIN ||
+          current_encoding_ == Encoding::RLE_DICTIONARY) {
+        uses_opt_ = true;
+      }
+      hasSet_uses_opt_ = true;
+    }
   }
 
   int64_t available_values_current_page() const {
     return num_buffered_values_ - num_decoded_values_;
   }
 
+  bool hasSet_uses_opt_ = false;
+  bool uses_opt_ = false;
+
   const ColumnDescriptor* descr_;
   const int16_t max_def_level_;
   const int16_t max_rep_level_;
@@ -1594,6 +1605,8 @@ class TypedRecordReader : public TypedColumnReaderImpl<DType>,
     }
   }
 
+  std::shared_ptr<ResizableBuffer> ReleaseOffsets() override { return nullptr; }
-  std::shared_ptr<ResizableBuffer> ReleaseOffsets() override { return nullptr; }
+  virtual std::shared_ptr<ResizableBuffer> ReleaseOffsets() { return nullptr; }
-  std::shared_ptr<ResizableBuffer> ReleaseOffsets() override { return nullptr; }
+  virtual std::shared_ptr<ResizableBuffer> ReleaseOffsets() { return nullptr; }
+
   std::shared_ptr<ResizableBuffer> ReleaseIsValid() override {
     if (leaf_info_.HasNullableValues()) {
       auto result = valid_bits_;
@@ -1697,7 +1710,7 @@ class TypedRecordReader : public TypedColumnReaderImpl<DType>,
     }
   }
 
-  void ReserveValues(int64_t extra_values) {
+  void ReserveValues(int64_t extra_values) override {
-  void ReserveValues(int64_t extra_values) override {
+  virtual void ReserveValues(int64_t extra_values) {
-  void ReserveValues(int64_t extra_values) override {
+  virtual void ReserveValues(int64_t extra_values) {
     const int64_t new_values_capacity =
         UpdateCapacity(values_capacity_, values_written_, extra_values);
     if (new_values_capacity > values_capacity_) {
@@ -1959,6 +1972,138 @@ class ByteArrayChunkedRecordReader : public TypedRecordReader<ByteArrayType>,
   typename EncodingTraits<ByteArrayType>::Accumulator accumulator_;
 };
 
+class ByteArrayChunkedOptRecordReader : public TypedRecordReader<ByteArrayType>,
+                                        virtual public BinaryRecordReader {
+ public:
+  ByteArrayChunkedOptRecordReader(const ColumnDescriptor* descr, LevelInfo leaf_info,
+                                  ::arrow::MemoryPool* pool)
+      : TypedRecordReader<ByteArrayType>(descr, leaf_info, pool) {
+    DCHECK_EQ(descr_->physical_type(), Type::BYTE_ARRAY);
+    accumulator_.builder.reset(new ::arrow::BinaryBuilder(pool));
+    values_ = AllocateBuffer(pool);
+    offset_ = AllocateBuffer(pool);
+  }
+
+  ::arrow::ArrayVector GetBuilderChunks() override {
+    if (uses_opt_) {
+      std::vector<std::shared_ptr<Buffer>> buffers = {ReleaseIsValid(), ReleaseOffsets(),
+                                                      ReleaseValues()};
+      auto data = std::make_shared<::arrow::ArrayData>(
+          ::arrow::binary(), values_written(), buffers, null_count());
+
+      auto chunks = ::arrow::ArrayVector({::arrow::MakeArray(data)});
+      return chunks;
+    } else {
+      ::arrow::ArrayVector result = accumulator_.chunks;
+      if (result.size() == 0 || accumulator_.builder->length() > 0) {
+        std::shared_ptr<::arrow::Array> last_chunk;
+        PARQUET_THROW_NOT_OK(accumulator_.builder->Finish(&last_chunk));
+        result.push_back(std::move(last_chunk));
+      }
+      accumulator_.chunks = {};
+      return result;
+    }
+  }
+
+  void ReadValuesDense(int64_t values_to_read) override {
+    if (uses_opt_) {
+      int64_t num_decoded = this->current_decoder_->DecodeArrowZeroCopy(
+          static_cast<int>(values_to_read), 0, NULLPTR,
+          (reinterpret_cast<int32_t*>(offset_->mutable_data()) + values_written_),
+          values_, 0, &binary_length_);
+      DCHECK_EQ(num_decoded, values_to_read);
+    } else {
+      int64_t num_decoded = this->current_decoder_->DecodeArrowNonNull(
+          static_cast<int>(values_to_read), &accumulator_);
+      CheckNumberDecoded(num_decoded, values_to_read);
+      ResetValues();
+    }
+  }
+
+  void ReadValuesSpaced(int64_t values_to_read, int64_t null_count) override {
+    if (uses_opt_) {
+      int64_t num_decoded = this->current_decoder_->DecodeArrowZeroCopy(
+          static_cast<int>(values_to_read), static_cast<int>(null_count),
+          valid_bits_->mutable_data(),
+          (reinterpret_cast<int32_t*>(offset_->mutable_data()) + values_written_),
+          values_, values_written_, &binary_length_);
+      DCHECK_EQ(num_decoded, values_to_read - null_count);
+    } else {
+      int64_t num_decoded = this->current_decoder_->DecodeArrow(
+          static_cast<int>(values_to_read), static_cast<int>(null_count),
+          valid_bits_->mutable_data(), values_written_, &accumulator_);
+      CheckNumberDecoded(num_decoded, values_to_read - null_count);
+      ResetValues();
+    }
+  }
+
+  void ReserveValues(int64_t extra_values) override {
+    const int64_t new_values_capacity =
+        UpdateCapacity(values_capacity_, values_written_, extra_values);
+    if (new_values_capacity > values_capacity_) {
+      PARQUET_THROW_NOT_OK(
+          values_->Resize(new_values_capacity * binary_per_row_length_, false));
-      PARQUET_THROW_NOT_OK(
-          values_->Resize(new_values_capacity * binary_per_row_length_, false));
+      int64_t per_row_length = binary_per_row_length_.value_or(kDefaultBinaryPerRowSize);
+      PARQUET_THROW_NOT_OK(
+          values_->Resize(new_values_capacity * per_row_length, false));
-      PARQUET_THROW_NOT_OK(
-          values_->Resize(new_values_capacity * binary_per_row_length_, false));
+      int64_t per_row_length = binary_per_row_length_.value_or(kDefaultBinaryPerRowSize);
+      PARQUET_THROW_NOT_OK(
+          values_->Resize(new_values_capacity * per_row_length, false));
+      PARQUET_THROW_NOT_OK(offset_->Resize((new_values_capacity + 1) * 4, false));
+
+      auto offset = reinterpret_cast<int32_t*>(offset_->mutable_data());
+      offset[0] = 0;
+
+      values_capacity_ = new_values_capacity;
+    }
+    if (leaf_info_.HasNullableValues()) {
+      int64_t valid_bytes_new = bit_util::BytesForBits(values_capacity_);
+      if (valid_bits_->size() < valid_bytes_new) {
+        int64_t valid_bytes_old = bit_util::BytesForBits(values_written_);
+        PARQUET_THROW_NOT_OK(valid_bits_->Resize(valid_bytes_new, false));
+        // Avoid valgrind warnings
+        memset(valid_bits_->mutable_data() + valid_bytes_old, 0,
+               valid_bytes_new - valid_bytes_old);
+      }
+    }
+  }
+  std::shared_ptr<ResizableBuffer> ReleaseValues() override {
+    auto result = values_;
+    values_ = AllocateBuffer(this->pool_);
+    values_capacity_ = 0;
+    return result;
+  }
+  std::shared_ptr<ResizableBuffer> ReleaseOffsets() override {
+    auto result = offset_;
+    if (ARROW_PREDICT_FALSE(!hasCal_average_len_)) {
-    if (ARROW_PREDICT_FALSE(!hasCal_average_len_)) {
+    if (ARROW_PREDICT_FALSE(!binary_per_row_length_.has_value())) {
-    if (ARROW_PREDICT_FALSE(!hasCal_average_len_)) {
+    if (ARROW_PREDICT_FALSE(!binary_per_row_length_.has_value())) {
+      auto offsetArr = reinterpret_cast<int32_t*>(offset_->mutable_data());
+      const auto first_offset = offsetArr[0];
+      const auto last_offset = offsetArr[values_written_];
+      int64_t binary_length = last_offset - first_offset;
+      binary_per_row_length_ = binary_length / values_written_ + 1;
+      hasCal_average_len_ = true;
+    }
+    offset_ = AllocateBuffer(this->pool_);
+    binary_length_ = 0;
+    return result;
+  }
+  void ResetValues() {
+    if (values_written_ > 0) {
+      // Resize to 0, but do not shrink to fit
+      PARQUET_THROW_NOT_OK(valid_bits_->Resize(0, false));
 void ResetValues() { 
   if (values_written_ > 0) { 
     // Resize to 0, but do not shrink to fit 
     if (uses_values_) { 
       PARQUET_THROW_NOT_OK(values_->Resize(0, /*shrink_to_fit=*/false)); 
     } 
 void ResetValues() { 
   if (values_written_ > 0) { 
     // Resize to 0, but do not shrink to fit 
     if (uses_values_) { 
       PARQUET_THROW_NOT_OK(values_->Resize(0, /*shrink_to_fit=*/false)); 
     } 
+      PARQUET_THROW_NOT_OK(offset_->Resize(0, false));
+      PARQUET_THROW_NOT_OK(values_->Resize(0, false));
+
+      values_written_ = 0;
+      values_capacity_ = 0;
+      null_count_ = 0;
+      binary_length_ = 0;
+    }
+  }
+
+ private:
+  // Helper data structure for accumulating builder chunks
+  typename EncodingTraits<ByteArrayType>::Accumulator accumulator_;
+
+  int32_t binary_length_ = 0;
+
+  std::shared_ptr<::arrow::ResizableBuffer> offset_;
+};
+
 class ByteArrayDictionaryRecordReader : public TypedRecordReader<ByteArrayType>,
                                         virtual public DictionaryRecordReader {
  public:
@@ -2056,8 +2201,10 @@ std::shared_ptr<RecordReader> MakeByteArrayRecordReader(const ColumnDescriptor*
                                                         bool read_dictionary) {
   if (read_dictionary) {
     return std::make_shared<ByteArrayDictionaryRecordReader>(descr, leaf_info, pool);
-  } else {
+  } else if (descr->logical_type()->is_decimal()) {
     return std::make_shared<ByteArrayChunkedRecordReader>(descr, leaf_info, pool);
+  } else {
+    return std::make_shared<ByteArrayChunkedOptRecordReader>(descr, leaf_info, pool);
   }
 }
 

@@ -55,6 +55,8 @@ static constexpr uint32_t kDefaultMaxPageHeaderSize = 16 * 1024 * 1024;
 // 16 KB is the default expected page header size
 static constexpr uint32_t kDefaultPageHeaderSize = 16 * 1024;
 
+static constexpr int32_t kDefaultBinaryPerRowSize = 20;
-static constexpr int32_t kDefaultBinaryPerRowSize = 20;
+static constexpr int32_t kDefaultBinaryBytesPerRow = 20;
-static constexpr int32_t kDefaultBinaryPerRowSize = 20;
+static constexpr int32_t kDefaultBinaryBytesPerRow = 20;
+
 class PARQUET_EXPORT LevelDecoder {
  public:
   LevelDecoder();
@@ -291,6 +293,8 @@ class PARQUET_EXPORT RecordReader {
   /// \brief Pre-allocate space for data. Results in better flat read performance
   virtual void Reserve(int64_t num_values) = 0;
 
+  virtual void ReserveValues(int64_t capacity) {}
 void ReserveValues(int64_t extra_values) { 
   const int64_t new_values_capacity = 
       UpdateCapacity(values_capacity_, values_written_, extra_values); 
   if (new_values_capacity > values_capacity_) { 
     // XXX(wesm): A hack to avoid memory allocation when reading directly 
     // into builder classes 
     if (uses_values_) { 
       PARQUET_THROW_NOT_OK(values_->Resize(bytes_for_values(new_values_capacity), 
                                            /*shrink_to_fit=*/false)); 
     } 
     values_capacity_ = new_values_capacity; 
   } 
   if (leaf_info_.HasNullableValues()) { 
     int64_t valid_bytes_new = bit_util::BytesForBits(values_capacity_); 
     if (valid_bits_->size() < valid_bytes_new) { 
       int64_t valid_bytes_old = bit_util::BytesForBits(values_written_); 
       PARQUET_THROW_NOT_OK( 
           valid_bits_->Resize(valid_bytes_new, /*shrink_to_fit=*/false)); 
       // Avoid valgrind warnings 
       memset(valid_bits_->mutable_data() + valid_bytes_old, 0, 
              valid_bytes_new - valid_bytes_old); 
     } 
-  virtual void ReserveValues(int64_t capacity) {}
 void ReserveValues(int64_t extra_values) { 
   const int64_t new_values_capacity = 
       UpdateCapacity(values_capacity_, values_written_, extra_values); 
   if (new_values_capacity > values_capacity_) { 
     // XXX(wesm): A hack to avoid memory allocation when reading directly 
     // into builder classes 
     if (uses_values_) { 
       PARQUET_THROW_NOT_OK(values_->Resize(bytes_for_values(new_values_capacity), 
                                            /*shrink_to_fit=*/false)); 
     } 
     values_capacity_ = new_values_capacity; 
   } 
   if (leaf_info_.HasNullableValues()) { 
     int64_t valid_bytes_new = bit_util::BytesForBits(values_capacity_); 
     if (valid_bits_->size() < valid_bytes_new) { 
       int64_t valid_bytes_old = bit_util::BytesForBits(values_written_); 
       PARQUET_THROW_NOT_OK( 
           valid_bits_->Resize(valid_bytes_new, /*shrink_to_fit=*/false)); 
  
       // Avoid valgrind warnings 
       memset(valid_bits_->mutable_data() + valid_bytes_old, 0, 
              valid_bytes_new - valid_bytes_old); 
     } 
-  virtual void ReserveValues(int64_t capacity) {}
+
   /// \brief Clear consumed values and repetition/definition levels as the
   /// result of calling ReadRecords
   virtual void Reset() = 0;
@@ -299,6 +303,8 @@ class PARQUET_EXPORT RecordReader {
   /// allocated in subsequent ReadRecords calls
   virtual std::shared_ptr<ResizableBuffer> ReleaseValues() = 0;
 
+  virtual std::shared_ptr<ResizableBuffer> ReleaseOffsets() = 0;
+
-  virtual std::shared_ptr<ResizableBuffer> ReleaseOffsets() = 0;
-  virtual std::shared_ptr<ResizableBuffer> ReleaseOffsets() = 0;
   /// \brief Transfer filled validity bitmap buffer to caller. A new one will
   /// be allocated in subsequent ReadRecords calls
   virtual std::shared_ptr<ResizableBuffer> ReleaseIsValid() = 0;
@@ -370,6 +376,9 @@ class PARQUET_EXPORT RecordReader {
   int64_t values_capacity_;
   int64_t null_count_;
 
+  bool hasCal_average_len_ = false;
+  int64_t binary_per_row_length_ = kDefaultBinaryPerRowSize;
-  bool hasCal_average_len_ = false;
-  int64_t binary_per_row_length_ = kDefaultBinaryPerRowSize;
+  /// \brief Typical size of single binary value, used for pre-allocating value buffer.
+  ///
+  /// Before this is set, kDefaultBinaryPerRowSize is used. After the first
+  /// batch of values, this is set to the size of the values buffer divided by
+  /// the number of values.
+  std::optional<int64_t> binary_per_row_length_ = std::nullopt;
-  bool hasCal_average_len_ = false;
-  int64_t binary_per_row_length_ = kDefaultBinaryPerRowSize;
+  /// \brief Typical size of single binary value, used for pre-allocating value buffer.
+  ///
+  /// Before this is set, kDefaultBinaryPerRowSize is used. After the first
+  /// batch of values, this is set to the size of the values buffer divided by
+  /// the number of values.
+  std::optional<int64_t> binary_per_row_length_ = std::nullopt;
+
   /// \brief Each bit corresponds to one element in 'values_' and specifies if it
   /// is null or not null.
   std::shared_ptr<::arrow::ResizableBuffer> valid_bits_;