apache · viirya · Jul 1, 2015 · Jul 20, 2015 · Jul 20, 2015 · Jul 21, 2015
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/parquet/newParquet.scala b/sql/core/src/main/scala/org/apache/spark/sql/parquet/newParquet.scala
@@ -342,15 +342,35 @@ private[sql] class ParquetRelation2(
     // Schema of the whole table, including partition columns.
     var schema: StructType = _
 
+    // Cached leaf statuses
+    var localCachedLeafStatuses: Set[FileStatus] = _
+
+    var lastRefreshTime: Long = 0
+
+    // Cached leaves
+    var cachedLeaves: Array[FileStatus] = Array()
+
     /**
      * Refreshes `FileStatus`es, footers, partition spec, and table schema.
      */
     def refresh(): Unit = {
+      // Check if cachedLeafStatuses is changed or not
+      val leafStatusesChanged = localCachedLeafStatuses != cachedLeafStatuses()
+
       // Lists `FileStatus`es of all leaf nodes (files) under all base directories.
-      val leaves = cachedLeafStatuses().filter { f =>
-        isSummaryFile(f.getPath) ||
-          !(f.getPath.getName.startsWith("_") || f.getPath.getName.startsWith("."))
-      }.toArray
+      val leaves = if (leafStatusesChanged) {
+        localCachedLeafStatuses = cachedLeafStatuses()
+        val updatedLeaves = cachedLeafStatuses().filter { f =>
+          (isSummaryFile(f.getPath) ||
+            !(f.getPath.getName.startsWith("_") || f.getPath.getName.startsWith("."))) &&
+            (f.getModificationTime > lastRefreshTime)
+        }.toArray
+        lastRefreshTime = System.currentTimeMillis
+        cachedLeaves = updatedLeaves
+        cachedLeaves
+      } else {
+        cachedLeaves
+      }
 
       dataStatuses = leaves.filterNot(f => isSummaryFile(f.getPath))
       metadataStatuses = leaves.filter(_.getPath.getName == ParquetFileWriter.PARQUET_METADATA_FILE)