TokenTextSplitter Ref: extract method, use range.

diesalbla · diesalbla · commit 5f83cb8263d5 · 2023-06-22T14:07:01.000+01:00
diff --git a/core/src/commonMain/kotlin/com/xebia/functional/xef/textsplitters/TokenTextSplitter.kt b/core/src/commonMain/kotlin/com/xebia/functional/xef/textsplitters/TokenTextSplitter.kt
@@ -2,6 +2,7 @@ package com.xebia.functional.xef.textsplitters
 
 import com.xebia.functional.tokenizer.Encoding
 import com.xebia.functional.tokenizer.ModelType
+import kotlin.ranges.IntProgression
 
 fun TokenTextSplitter(modelType: ModelType, chunkSize: Int, chunkOverlap: Int): TextSplitter =
   TokenTextSplitterImpl(modelType.encoding, chunkSize, chunkOverlap)
@@ -14,14 +15,12 @@ private class TokenTextSplitterImpl(
 
   override suspend fun splitText(text: String): List<String> {
     val inputIds = tokenizer.encode(text)
-    val stepSize = chunkSize - chunkOverlap
-
-    return inputIds.indices
-      .asSequence()
-      .filter { it % stepSize == 0 }
-      .map { startIdx -> inputIds.subList(startIdx, minOf(startIdx + chunkSize, inputIds.size)) }
-      .map { chunkIds -> tokenizer.decode(chunkIds) }
-      .toList()
+    fun decodeSegment(startIdx: Int): String {
+      val end = minOf(startIdx + chunkSize, inputIds.size)
+      return tokenizer.decode(inputIds.subList(startIdx, end))
+    }
+    val segments = IntProgression.fromClosedRange(0, inputIds.size - 1, chunkSize - chunkOverlap)
+    return segments.toList().map { decodeSegment(it) }
   }
 
   override suspend fun splitDocuments(documents: List<String>): List<String> =