Avoid deserialization when no columns are needed #16595

phd3 · 2023-03-16T14:51:16Z

Description

Even when no columns are accessed for a scan, GenericHiveRecordCursor pays the cost of deserializing the record - which is never used to get values out. This change avoids that deserialization and improves performance for count(const) or count(*) queries on formats that use GenericHiveRecordCursor.

Practically observed ~3x-4x improvement in CPU consumption for some queries.

We still need to fetch the data as long as we're dependent on RecordReader API since it doesn't provide a way to get counts.

Additional context and related issues

Test exists in BaseHiveConnectorTest#testReadNoColumns

Release notes

( ) This is not user-visible or docs only and no release notes are required.
( ) Release notes are required, please propose a release note for me.
( ) Release notes are required, with the following suggested text:

# Hive
* Improve scan performance for count(*) queries on row-oriented formats. ({issue}`16595`)

This improves performance for count(const) or count(*) queris on formats that use GenericHiveRecordCursor.

electrum · 2023-03-17T00:54:16Z

Note that as of now, all formats except Avro use the native Trino readers by default. @jklamer is working on Avro.

Avoid deserialization when no columns are needed

55c49fd

This improves performance for count(const) or count(*) queris on formats that use GenericHiveRecordCursor.

cla-bot bot added the cla-signed label Mar 16, 2023

phd3 requested review from raunaqmorarka and sopel39 March 16, 2023 14:51

github-actions bot added hive Hive connector tests:hive labels Mar 16, 2023

electrum approved these changes Mar 17, 2023

View reviewed changes

raunaqmorarka approved these changes Mar 17, 2023

View reviewed changes

raunaqmorarka added the performance label Mar 17, 2023

phd3 merged commit b7258a6 into trinodb:master Mar 17, 2023

github-actions bot added this to the 411 milestone Mar 17, 2023

colebow mentioned this pull request Mar 29, 2023

Add Trino 411 release notes #16552

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Avoid deserialization when no columns are needed #16595

Avoid deserialization when no columns are needed #16595

Uh oh!

phd3 commented Mar 16, 2023 •

edited

Loading

Uh oh!

electrum commented Mar 17, 2023

Uh oh!

Reviewers

Assignees

Labels

Milestone

Development

Uh oh!

3 participants

Avoid deserialization when no columns are needed #16595

Avoid deserialization when no columns are needed #16595

Uh oh!

Conversation

phd3 commented Mar 16, 2023 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Description

Additional context and related issues

Release notes

Uh oh!

electrum commented Mar 17, 2023

Uh oh!

Reviewers

Assignees

Labels

Milestone

Development

Uh oh!

3 participants

phd3 commented Mar 16, 2023 •

edited

Loading