scalableminds
diff --git a/‎CHANGELOG.unreleased.md
+2 b/‎CHANGELOG.unreleased.md
+2
diff --git a/‎conf/application.conf
+4-2 b/‎conf/application.conf
+4-2
diff --git a/‎util/src/main/scala/com/scalableminds/util/cache/LRUConcurrentCache.scala
+8 b/‎util/src/main/scala/com/scalableminds/util/cache/LRUConcurrentCache.scala
+8
diff --git a/‎webknossos-datastore/app/com/scalableminds/webknossos/datastore/DataStoreConfig.scala
+2 b/‎webknossos-datastore/app/com/scalableminds/webknossos/datastore/DataStoreConfig.scala
+2
diff --git a/‎webknossos-datastore/app/com/scalableminds/webknossos/datastore/services/AgglomerateService.scala
+71-30 b/‎webknossos-datastore/app/com/scalableminds/webknossos/datastore/services/AgglomerateService.scala
+71-30
diff --git a/‎webknossos-datastore/app/com/scalableminds/webknossos/datastore/services/BinaryDataService.scala
+17-33 b/‎webknossos-datastore/app/com/scalableminds/webknossos/datastore/services/BinaryDataService.scala
+17-33
diff --git a/‎webknossos-datastore/app/com/scalableminds/webknossos/datastore/services/IsosurfaceService.scala
+5-5 b/‎webknossos-datastore/app/com/scalableminds/webknossos/datastore/services/IsosurfaceService.scala
+5-5
@@ -17,6 +17,8 @@ For upgrade instructions, please check the [migration guide](MIGRATIONS.released
 ### Changed
 - When d/f switching is turned off and a slice is copied with the shortcut `v`, the previous slice used as the source will always be slice - 1 and `shift + v` will always take slice + 1 as the slice to copy from. [#4728](https://github.com/scalableminds/webknossos/pull/4728)
 - Disabled the autofill feature of the brush when using this tool to erase data. [#4729](https://github.com/scalableminds/webknossos/pull/4729)
+- Improved the performance of applying agglomerate files. [#4706](https://github.com/scalableminds/webknossos/pull/4706)
+
 
 ### Fixed
 - Speed up NML import in existing tracings for NMLs with many trees (20,000+). [#4742](https://github.com/scalableminds/webknossos/pull/4742)
 
@@ -105,8 +105,10 @@ akka.loggers = ["akka.event.slf4j.Slf4jLogger"]
 braingames.binary {
   cacheMaxSize = 40 # number of entries
   mappingCacheMaxSize = 5 # number of entries
-  agglomerateFileCacheMaxSize = 5 # number of entries
-  agglomerateCacheMaxSize = 100 # number of entries
+  agglomerateFileCacheMaxSize = 15 # number of entries
+  agglomerateCacheMaxSize = 625000 # number of entries
+  agglomerateStandardBlockSize = 512 # standard block size of cache reads, best size ~= file block size / bytes per id
+  agglomerateMaxReaderRange = 1310720 # max size per read when using cumsum.json
   loadTimeout = 10 # in seconds
   saveTimeout = 10 # in seconds
   isosurfaceTimeout = 30 # in seconds
 
@@ -47,6 +47,14 @@ trait LRUConcurrentCache[K, V] {
       size
     }
 
+  def getOrHandleUncachedKey(key: K, handleUncachedKey: () => V): V =
+    cache.synchronized {
+      Option(cache.get(key)) match {
+        case Some(value) => value
+        case None        => handleUncachedKey()
+      }
+    }
+
   def clear(): Unit =
     cache.clear()
 }
@@ -25,7 +25,9 @@ class DataStoreConfig @Inject()(configuration: Configuration) extends ConfigRead
       val cacheMaxSize = get[Int]("braingames.binary.cacheMaxSize")
       val mappingCacheMaxSize = get[Int]("braingames.binary.mappingCacheMaxSize")
       val agglomerateCacheMaxSize = get[Int]("braingames.binary.agglomerateCacheMaxSize")
+      val agglomerateStandardBlockSize = get[Int]("braingames.binary.agglomerateStandardBlockSize")
       val agglomerateFileCacheMaxSize = get[Int]("braingames.binary.agglomerateFileCacheMaxSize")
+      val agglomerateMaxReaderRange = get[Int]("braingames.binary.agglomerateMaxReaderRange")
       val isosurfaceTimeout = get[Int]("braingames.binary.isosurfaceTimeout") seconds
       val isosurfaceActorPoolSize = get[Int](path = "braingames.binary.isosurfaceActorPoolSize")
 
 
@@ -1,30 +1,32 @@
 package com.scalableminds.webknossos.datastore.services
 
 import java.nio._
-import java.nio.file.Paths
+import java.nio.file.{Files, Paths}
 
 import ch.systemsx.cisd.hdf5._
 import com.scalableminds.util.io.PathUtils
-import com.scalableminds.util.tools.{Fox, FoxImplicits}
 import com.scalableminds.webknossos.datastore.DataStoreConfig
 import com.scalableminds.webknossos.datastore.models.requests.DataServiceDataRequest
-import com.scalableminds.webknossos.datastore.storage.{AgglomerateCache, AgglomerateFileCache, CachedReader}
+import com.scalableminds.webknossos.datastore.storage.{
+  AgglomerateIdCache,
+  AgglomerateFileCache,
+  BoundingBoxCache,
+  CachedAgglomerateFile,
+  CumsumParser
+}
 import com.typesafe.scalalogging.LazyLogging
 import javax.inject.Inject
 import org.apache.commons.io.FilenameUtils
 import spire.math.{UByte, UInt, ULong, UShort}
 
-import scala.concurrent.ExecutionContext.Implicits.global
-import scala.util.Try
-
-class AgglomerateService @Inject()(config: DataStoreConfig) extends DataConverter with FoxImplicits with LazyLogging {
+class AgglomerateService @Inject()(config: DataStoreConfig) extends DataConverter with LazyLogging {
   val agglomerateDir = "agglomerates"
   val agglomerateFileExtension = "hdf5"
   val datasetName = "/segment_to_agglomerate"
   val dataBaseDir = Paths.get(config.Braingames.Binary.baseFolder)
+  val cumsumFileName = "cumsum.json"
 
-  lazy val cachedFileHandles = new AgglomerateFileCache(config.Braingames.Binary.agglomerateFileCacheMaxSize)
-  lazy val cache = new AgglomerateCache(config.Braingames.Binary.agglomerateCacheMaxSize)
+  lazy val agglomerateFileCache = new AgglomerateFileCache(config.Braingames.Binary.agglomerateFileCacheMaxSize)
 
   def exploreAgglomerates(organizationName: String, dataSetName: String, dataLayerName: String): Set[String] = {
     val layerDir = dataBaseDir.resolve(organizationName).resolve(dataSetName).resolve(dataLayerName)
@@ -38,46 +40,85 @@ class AgglomerateService @Inject()(config: DataStoreConfig) extends DataConverte
       .toSet
   }
 
-  def applyAgglomerate(request: DataServiceDataRequest)(data: Array[Byte]): Fox[Array[Byte]] = {
-    def segmentToAgglomerate(segmentId: Long) =
-      cache.withCache(request, segmentId, cachedFileHandles)(readFromFile = readHDF)(loadReader = initHDFReader)
-
+  def applyAgglomerate(request: DataServiceDataRequest)(data: Array[Byte]): Array[Byte] = {
     def byteFunc(buf: ByteBuffer, lon: Long) = buf put lon.toByte
     def shortFunc(buf: ByteBuffer, lon: Long) = buf putShort lon.toShort
     def intFunc(buf: ByteBuffer, lon: Long) = buf putInt lon.toInt
     def longFunc(buf: ByteBuffer, lon: Long) = buf putLong lon
 
-    def convertToAgglomerate(input: Array[Long],
+    def convertToAgglomerate(input: Array[ULong],
                              numBytes: Int,
-                             bufferFunc: (ByteBuffer, Long) => ByteBuffer): Fox[Array[Byte]] = {
-      val agglomerateIds = Fox.combined(input.map(segmentToAgglomerate))
-      agglomerateIds.map(
-        _.foldLeft(ByteBuffer.allocate(numBytes * input.length).order(ByteOrder.LITTLE_ENDIAN))(bufferFunc).array)
+                             bufferFunc: (ByteBuffer, Long) => ByteBuffer): Array[Byte] = {
+      val cachedAgglomerateFile = agglomerateFileCache.withCache(request)(initHDFReader)
+
+      val agglomerateIds = cachedAgglomerateFile.cache match {
+        case Left(agglomerateIdCache) =>
+          input.map(
+            el =>
+              agglomerateIdCache.withCache(el,
+                                           cachedAgglomerateFile.reader,
+                                           cachedAgglomerateFile.dataset,
+                                           cachedAgglomerateFile.size)(readHDF))
+        case Right(boundingBoxCache) =>
+          boundingBoxCache.withCache(request, input, cachedAgglomerateFile.reader)(readHDF)
+      }
+      cachedAgglomerateFile.finishAccess()
+
+      agglomerateIds
+        .foldLeft(ByteBuffer.allocate(numBytes * input.length).order(ByteOrder.LITTLE_ENDIAN))(bufferFunc)
+        .array
     }
 
     convertData(data, request.dataLayer.elementClass) match {
-      case data: Array[UByte]  => convertToAgglomerate(data.map(_.toLong), 1, byteFunc)
-      case data: Array[UShort] => convertToAgglomerate(data.map(_.toLong), 2, shortFunc)
-      case data: Array[UInt]   => convertToAgglomerate(data.map(_.toLong), 4, intFunc)
-      case data: Array[ULong]  => convertToAgglomerate(data.map(_.toLong), 8, longFunc)
-      // we can safely map the ULong to Long because we only do operations that are compatible with the two's complement
-      case _ => Fox.successful(data)
+      case data: Array[UByte]  => convertToAgglomerate(data.map(e => ULong(e.toLong)), 1, byteFunc)
+      case data: Array[UShort] => convertToAgglomerate(data.map(e => ULong(e.toLong)), 2, shortFunc)
+      case data: Array[UInt]   => convertToAgglomerate(data.map(e => ULong(e.toLong)), 4, intFunc)
+      case data: Array[ULong]  => convertToAgglomerate(data, 8, longFunc)
+      case _                   => data
     }
   }
 
-  private def readHDF(reader: IHDF5Reader, segmentId: Long): Fox[Long] =
-    // We don't need to differentiate between the datatypes because the underlying library does the conversion for us
-    try2Fox(Try(reader.uint64().readArrayBlockWithOffset(datasetName, 1, segmentId).head))
+  // This uses a HDF5DataSet, which improves performance per call but doesn't permit parallel calls with the same dataset.
+  private def readHDF(reader: IHDF5Reader, dataSet: HDF5DataSet, segmentId: Long, blockSize: Long): Array[Long] =
+    // We don't need to differentiate between the data types because the underlying library does the conversion for us
+    reader.uint64().readArrayBlockWithOffset(dataSet, blockSize.toInt, segmentId)
+
+  // This uses the datasetName, which allows us to call it on the same hdf file in parallel.
+  private def readHDF(reader: IHDF5Reader, segmentId: Long, blockSize: Long) =
+    reader.uint64().readArrayBlockWithOffset(datasetName, blockSize.toInt, segmentId)
 
   private def initHDFReader(request: DataServiceDataRequest) = {
-    val hdfFile = Try(
+    val hdfFile =
       dataBaseDir
         .resolve(request.dataSource.id.team)
         .resolve(request.dataSource.id.name)
         .resolve(request.dataLayer.name)
         .resolve(agglomerateDir)
         .resolve(s"${request.settings.appliedAgglomerate.get}.${agglomerateFileExtension}")
-        .toFile)
-    try2Fox(hdfFile.map(f => CachedReader(HDF5FactoryProvider.get.openForReading(f))))
+        .toFile
+
+    val cumsumPath =
+      dataBaseDir
+        .resolve(request.dataSource.id.team)
+        .resolve(request.dataSource.id.name)
+        .resolve(request.dataLayer.name)
+        .resolve(agglomerateDir)
+        .resolve(cumsumFileName)
+
+    val reader = HDF5FactoryProvider.get.openForReading(hdfFile)
+
+    val cache: Either[AgglomerateIdCache, BoundingBoxCache] =
+      if (Files.exists(cumsumPath)) {
+        Right(CumsumParser.parse(cumsumPath.toFile, ULong(config.Braingames.Binary.agglomerateMaxReaderRange)))
+      } else {
+        Left(
+          new AgglomerateIdCache(config.Braingames.Binary.agglomerateCacheMaxSize,
+                                 config.Braingames.Binary.agglomerateStandardBlockSize))
+      }
+
+    CachedAgglomerateFile(reader,
+                          reader.`object`().openDataSet(datasetName),
+                          ULong(reader.getDataSetInformation(datasetName).getNumberOfElements),
+                          cache)
   }
 }
@@ -1,31 +1,18 @@
 package com.scalableminds.webknossos.datastore.services
-import scala.reflect.io.Directory
+
 import java.io.File
-import java.nio.{ByteBuffer, ByteOrder, LongBuffer}
-import java.nio.file.{Files, Path, Paths, StandardCopyOption}
+import java.nio.file.{Files, Path}
 
 import com.scalableminds.util.geometry.{Point3D, Vector3I}
-import com.scalableminds.webknossos.datastore.models.BucketPosition
-import com.scalableminds.webknossos.datastore.models.datasource.{Category, DataLayer, ElementClass}
-import com.scalableminds.webknossos.datastore.models.requests.{
-  DataReadInstruction,
-  DataServiceDataRequest,
-  DataServiceMappingRequest,
-  MappingReadInstruction
-}
-import com.scalableminds.webknossos.datastore.storage.{
-  CachedAgglomerateFile,
-  CachedAgglomerateKey,
-  CachedCube,
-  DataCubeCache
-}
 import com.scalableminds.util.tools.ExtendedTypes.ExtendedArraySeq
 import com.scalableminds.util.tools.{Fox, FoxImplicits}
+import com.scalableminds.webknossos.datastore.models.BucketPosition
+import com.scalableminds.webknossos.datastore.models.datasource.{Category, DataLayer, ElementClass}
+import com.scalableminds.webknossos.datastore.models.requests.{DataReadInstruction, DataServiceDataRequest}
+import com.scalableminds.webknossos.datastore.storage.{AgglomerateFileKey, CachedCube, DataCubeCache}
 import com.typesafe.scalalogging.LazyLogging
 import net.liftweb.common.Full
-import spire.math.UInt
 
-import scala.collection.mutable
 import scala.concurrent.ExecutionContext.Implicits.global
 import scala.concurrent.duration._
 
@@ -59,27 +46,24 @@ class BinaryDataService(dataBaseDir: Path,
   def handleDataRequests(requests: List[DataServiceDataRequest]): Fox[(Array[Byte], List[Int])] = {
     def convertIfNecessary[T](isNecessary: Boolean,
                               inputArray: Array[Byte],
-                              conversionFunc: Array[Byte] => T,
-                              transformInput: Array[Byte] => T): T =
-      if (isNecessary) conversionFunc(inputArray) else transformInput(inputArray)
+                              conversionFunc: Array[Byte] => Array[Byte]): Array[Byte] =
+      if (isNecessary) conversionFunc(inputArray) else inputArray
 
     val requestsCount = requests.length
     val requestData = requests.zipWithIndex.map {
       case (request, index) =>
         for {
           data <- handleDataRequest(request)
-          mappedData <- convertIfNecessary(
-            request.settings.appliedAgglomerate.isDefined && request.dataLayer.category == Category.segmentation && request.cuboid.resolution.maxDim <= 8,
+          mappedData = convertIfNecessary(
+            request.settings.appliedAgglomerate.isDefined && request.dataLayer.category == Category.segmentation && request.cuboid.resolution.maxDim <= 16,
             data,
-            agglomerateService.applyAgglomerate(request),
-            Fox.successful(_)
+            agglomerateService.applyAgglomerate(request)
           )
           convertedData = convertIfNecessary(
             request.dataLayer.elementClass == ElementClass.uint64 && request.dataLayer.category == Category.segmentation,
             mappedData,
-            convertToUInt32,
-            identity)
-          resultData = convertIfNecessary(request.settings.halfByte, convertedData, convertToHalfByte, identity)
+            convertToUInt32)
+          resultData = convertIfNecessary(request.settings.halfByte, convertedData, convertToHalfByte)
         } yield (resultData, index)
     }
 
@@ -196,11 +180,11 @@ class BinaryDataService(dataBaseDir: Path,
       cubeKey.dataSourceName == dataSetName && cubeKey.organization == organizationName && layerName.forall(
         _ == cubeKey.dataLayerName)
 
-    def matchingAgglomerate(cachedAgglomerate: CachedAgglomerateKey) =
-      cachedAgglomerate.dataSourceName == dataSetName && cachedAgglomerate.organization == organizationName && layerName
-        .forall(_ == cachedAgglomerate.dataLayerName)
+    def matchingAgglomerate(agglomerateKey: AgglomerateFileKey) =
+      agglomerateKey.dataSourceName == dataSetName && agglomerateKey.organization == organizationName && layerName
+        .forall(_ == agglomerateKey.dataLayerName)
 
-    agglomerateService.cache.clear(matchingAgglomerate)
+    agglomerateService.agglomerateFileCache.clear(matchingAgglomerate)
     cache.clear(matchingPredicate)
   }
 
 
@@ -108,9 +108,9 @@ class IsosurfaceService @Inject()(
           Fox.successful(data)
       }
 
-    def applyAgglomerate(data: Array[Byte]): Fox[Array[Byte]] =
+    def applyAgglomerate(data: Array[Byte]): Array[Byte] =
       request.mapping match {
-        case Some(mappingName) =>
+        case Some(_) =>
           request.mappingType match {
             case Some("HDF5") =>
               val dataRequest = DataServiceDataRequest(
@@ -122,10 +122,10 @@ class IsosurfaceService @Inject()(
                 Vector3I(1, 1, 1))
               agglomerateService.applyAgglomerate(dataRequest)(data)
             case _ =>
-              Fox.successful(data)
+              data
           }
         case _ =>
-          Fox.successful(data)
+          data
       }
 
     def convertData(data: Array[Byte]): Array[T] = {
@@ -194,7 +194,7 @@ class IsosurfaceService @Inject()(
 
     for {
       data <- binaryDataService.handleDataRequest(dataRequest)
-      agglomerateMappedData <- applyAgglomerate(data)
+      agglomerateMappedData = applyAgglomerate(data)
       typedData = convertData(agglomerateMappedData)
       mappedData <- applyMapping(typedData)
       mappedSegmentId <- applyMapping(Array(typedSegmentId)).map(_.head)
Original file line number	Diff line number	Diff line change
`@@ -47,6 +47,14 @@ trait LRUConcurrentCache[K, V] {`
`47`	`47`	`size`
`48`	`48`	`}`
`49`	`49`
	`50`	`+ def getOrHandleUncachedKey(key: K, handleUncachedKey: () => V): V =`
	`51`	`+ cache.synchronized {`
	`52`	`+ Option(cache.get(key)) match {`
	`53`	`+ case Some(value) => value`
	`54`	`+ case None => handleUncachedKey()`
	`55`	`+ }`
	`56`	`+ }`
	`57`	`+`
`50`	`58`	`def clear(): Unit =`
`51`	`59`	`cache.clear()`
`52`	`60`	`}`