Caching query result if I use spark-clickhouse-connector #375

hipp0gryph · 2024-12-19T22:07:28Z

Hello! I use driver in pyspark on cluster with jars clickhouse-jdbc-0.4.5.jar clickhouse-spark-runtime-3.3_2.12-0.7.1.jar

I have table with ReplicatedReplacingMergeTree:

ENGINE = ReplicatedReplacingMergeTree('/clickhouse/tables/{shard}/visits_v2', '{replica}', ver)

And I tried take data from table and on first iteration all good. On second iteration I see into visits same dataframe like after first iteration select. That look like clickhouse caching query data. If I do small change into query (new where, bigger limit, etc) - all working fine on first try. On second iteration I get same dataframe on second run.

Spark code looks like:

spark = SparkSession.builder \
    .appName("ClickHouse Example") \
    .config("spark.clickhouse.write.repartitionByPartition", "false") \
    .config("spark.sql.catalog.clickhouse", "xenon.clickhouse.ClickHouseCatalog") \
    .config("spark.sql.catalog.clickhouse.host", config["CLICKHOUSE"]["host"]) \
    .config("spark.sql.catalog.clickhouse.protocol", "http") \
    .config("spark.sql.catalog.clickhouse.http_port", config["CLICKHOUSE"]["port"]) \
    .config("spark.sql.catalog.clickhouse.user", config["CLICKHOUSE"]["user"]) \
    .config("spark.sql.catalog.clickhouse.password", config["CLICKHOUSE"]["password"]) \
    .config("spark.sql.catalog.clickhouse.database", config["CLICKHOUSE"]["table_visits"].split(".")[0]) \
    .getOrCreate()
spark.sql("use clickhouse;")
spark.catalog.clearCache()
visits = spark.sql(f'SELECT * FROM {config["CLICKHOUSE"]["table_visits"]} final '
                       f'where isChecked = 0 limit {config["CLICKHOUSE"]["limit"]}') \
        .repartition(100) \
        .withColumn("isChecked", F.lit(1)) \
        .withColumn("ver", F.col("ver") + 1)
visits.show()
visits.createOrReplaceTempView("checked_visits")
spark.sql(f'INSERT INTO {config["CLICKHOUSE"]["table_visits"]} SELECT * from checked_visits;')

How I can fix that? If i send same query into clickhouse with other instrument - I get normal result. Into instruction I not found param with caching. Thank you in advance!

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Caching query result if I use spark-clickhouse-connector #375

Caching query result if I use spark-clickhouse-connector #375

hipp0gryph commented Dec 19, 2024 •

edited

Loading

Caching query result if I use spark-clickhouse-connector #375

Caching query result if I use spark-clickhouse-connector #375

Comments

hipp0gryph commented Dec 19, 2024 • edited Loading

hipp0gryph commented Dec 19, 2024 •

edited

Loading