tetherto
diff --git a/‎convert_hf_to_gguf.py‎
Lines changed: 3 additions & 60 deletions b/‎convert_hf_to_gguf.py‎
Lines changed: 3 additions & 60 deletions
diff --git a/‎ggml/src/ggml-vulkan/ggml-vulkan.cpp‎
Lines changed: 2 additions & 71 deletions b/‎ggml/src/ggml-vulkan/ggml-vulkan.cpp‎
Lines changed: 2 additions & 71 deletions
diff --git a/‎ggml/src/ggml-vulkan/vulkan-shaders/dequant_funcs.comp‎
Lines changed: 1 addition & 25 deletions b/‎ggml/src/ggml-vulkan/vulkan-shaders/dequant_funcs.comp‎
Lines changed: 1 addition & 25 deletions
diff --git a/‎ggml/src/ggml-vulkan/vulkan-shaders/dequant_funcs_cm2.comp‎
Lines changed: 0 additions & 20 deletions b/‎ggml/src/ggml-vulkan/vulkan-shaders/dequant_funcs_cm2.comp‎
Lines changed: 0 additions & 20 deletions
diff --git a/‎ggml/src/ggml-vulkan/vulkan-shaders/dequant_tq2_0.comp‎
Lines changed: 0 additions & 36 deletions b/‎ggml/src/ggml-vulkan/vulkan-shaders/dequant_tq2_0.comp‎
Lines changed: 0 additions & 36 deletions
diff --git a/‎ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vec_tq2_0.comp‎
Lines changed: 0 additions & 66 deletions b/‎ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vec_tq2_0.comp‎
Lines changed: 0 additions & 66 deletions
diff --git a/‎ggml/src/ggml-vulkan/vulkan-shaders/mul_mm.comp‎
Lines changed: 0 additions & 16 deletions b/‎ggml/src/ggml-vulkan/vulkan-shaders/mul_mm.comp‎
Lines changed: 0 additions & 16 deletions
diff --git a/‎ggml/src/ggml-vulkan/vulkan-shaders/out_prod_tq2_0.comp‎
Lines changed: 0 additions & 58 deletions b/‎ggml/src/ggml-vulkan/vulkan-shaders/out_prod_tq2_0.comp‎
Lines changed: 0 additions & 58 deletions
diff --git a/‎ggml/src/ggml-vulkan/vulkan-shaders/types.comp‎
Lines changed: 0 additions & 16 deletions b/‎ggml/src/ggml-vulkan/vulkan-shaders/types.comp‎
Lines changed: 0 additions & 16 deletions
@@ -2641,47 +2641,18 @@ def prepare_tensors(self):
         super().prepare_tensors()
 
 
-@ModelBase.register("BitnetForCausalLM", "BitNetForCausalLM")
+@ModelBase.register("BitnetForCausalLM")
 class BitnetModel(TextModel):
     model_arch = gguf.MODEL_ARCH.BITNET
 
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self._bitnet_weight_scales: dict[str, torch.Tensor] = {}
-
     def set_vocab(self):
-        if (self.dir_model / "tokenizer.model").is_file():
-            self._set_vocab_sentencepiece()
-        else:
-            self._set_vocab_gpt2()
+        self._set_vocab_sentencepiece()
 
     def set_gguf_parameters(self):
         super().set_gguf_parameters()
         self.gguf_writer.add_rope_scaling_type(gguf.RopeScalingType.LINEAR)
         self.gguf_writer.add_rope_scaling_factor(1.0)
 
-    @staticmethod
-    def _unpack_bitnet_weights(packed: torch.Tensor) -> torch.Tensor:
-        if packed.dtype != torch.uint8:
-            raise ValueError(f"Expected packed BitNet weights to be torch.uint8, got {packed.dtype}")
-
-        values_per_item = 4
-        rows = packed.shape[0]
-        rest = packed.shape[1:]
-
-        unpacked_chunks: list[torch.Tensor] = []
-        mapping = torch.tensor([-1.0, 0.0, 1.0, 0.0], dtype=torch.float32, device=packed.device)
-
-        for i in range(values_per_item):
-            chunk = (packed >> (2 * i)) & 0x03
-            chunk = mapping[chunk.long()].reshape((rows, *rest))
-            unpacked_chunks.append(chunk)
-
-        if not unpacked_chunks:
-            raise ValueError("Failed to unpack BitNet weights: no chunks produced")
-
-        return torch.cat(unpacked_chunks, dim=0)
-
     def weight_quant(self, weight: Tensor) -> Tensor:
         dtype = weight.dtype
         weight = weight.float()
@@ -2694,36 +2665,8 @@ def weight_quant(self, weight: Tensor) -> Tensor:
         return result.type(dtype)
 
     def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
-        if name.endswith(".weight_scale"):
-            weight_name = name[:-13] + ".weight"
-            mapped_weight_name = self.map_tensor_name(weight_name)
-            if isinstance(data_torch, LazyTorchTensor):
-                data_torch = LazyTorchTensor.to_eager(data_torch)
-
-            scale_tensor = data_torch.to(torch.float32)
-            self._bitnet_weight_scales[mapped_weight_name] = scale_tensor
-            return []
-
         new_name = self.map_tensor_name(name)
 
-        ternary_weight = False
-
-        if name.endswith(".weight"):
-            scale_tensor = self._bitnet_weight_scales.pop(new_name, None)
-            if scale_tensor is not None:
-                scale_tensor = scale_tensor.to(torch.float32)
-                if scale_tensor.numel() != 1:
-                    raise ValueError(f"Expected scalar weight_scale for '{name}', got shape {tuple(scale_tensor.shape)}")
-
-                if isinstance(data_torch, LazyTorchTensor):
-                    data_torch = LazyTorchTensor.to_eager(data_torch)
-
-                packed = data_torch.to(torch.uint8)
-                unpacked = self._unpack_bitnet_weights(packed)
-                scale_value = scale_tensor.reshape(-1)[0].item()
-                data_torch = unpacked * scale_value
-                ternary_weight = True
-
         if any(self.match_model_tensor_name(new_name, key, bid) for key in [
             gguf.MODEL_TENSOR.ATTN_Q,
             gguf.MODEL_TENSOR.ATTN_K,
@@ -2732,7 +2675,7 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
             gguf.MODEL_TENSOR.FFN_UP,
             gguf.MODEL_TENSOR.FFN_DOWN,
             gguf.MODEL_TENSOR.FFN_GATE,
-        ]) and not ternary_weight:
+        ]):
             # transform weight into 1/0/-1 (in fp32)
             data_torch = self.weight_quant(data_torch)
 
 
@@ -434,30 +434,6 @@ vec4 dequantize4(uint ib, uint iqs, uint a_offset) {
 }
 #endif
 
-#if defined(DATA_A_TQ2_0)
-// TQ2_0 ternary dequantization: {0,1,2} -> {-1,0,+1} via (q-1) mapping
-vec2 dequantize(uint ib, uint iqs, uint a_offset) {
-    const uint vui = uint(data_a[a_offset + ib].qs[iqs]);
-    const uint c0 = (vui >> 0) & 3;
-    const uint c1 = (vui >> 2) & 3;
-    const float q0 = float(c0) - 1.0f;
-    const float q1 = float(c1) - 1.0f;
-    return vec2(q0, q1);
-}
-vec4 dequantize4(uint ib, uint iqs, uint a_offset) {
-    const uint vui = uint(data_a[a_offset + ib].qs[iqs]);
-    const uint c0 = (vui >> 0) & 3;
-    const uint c1 = (vui >> 2) & 3;
-    const uint c2 = (vui >> 4) & 3;
-    const uint c3 = (vui >> 6) & 3;
-    const float q0 = float(c0) - 1.0f;
-    const float q1 = float(c1) - 1.0f;
-    const float q2 = float(c2) - 1.0f;
-    const float q3 = float(c3) - 1.0f;
-    return vec4(q0, q1, q2, q3);
-}
-#endif
-
 #if defined(DATA_A_MXFP4)
 vec2 dequantize(uint ib, uint iqs, uint a_offset) {
     const uint vui = uint(data_a[a_offset + ib].qs[iqs]);
@@ -485,7 +461,7 @@ vec2 get_dm(uint ib, uint a_offset) {
 }
 #endif
 
-#if defined(DATA_A_Q4_0) || defined(DATA_A_Q5_0) || defined(DATA_A_Q8_0) || defined(DATA_A_TQ2_0) || defined(DATA_A_IQ1_S) || defined(DATA_A_IQ2_XXS) || defined(DATA_A_IQ2_XS) || defined(DATA_A_IQ2_S) || defined(DATA_A_IQ3_XXS) || defined(DATA_A_IQ3_S) || defined(DATA_A_IQ4_XS) || defined(DATA_A_IQ4_NL)
+#if defined(DATA_A_Q4_0) || defined(DATA_A_Q5_0) || defined(DATA_A_Q8_0) || defined(DATA_A_IQ1_S) || defined(DATA_A_IQ2_XXS) || defined(DATA_A_IQ2_XS) || defined(DATA_A_IQ2_S) || defined(DATA_A_IQ3_XXS) || defined(DATA_A_IQ3_S) || defined(DATA_A_IQ4_XS) || defined(DATA_A_IQ4_NL)
 vec2 get_dm(uint ib, uint a_offset) {
     return vec2(float(data_a[a_offset + ib].d), 0);
 }
 
@@ -654,24 +654,6 @@ float16_t dequantFuncIQ4_NL(const in decodeBufIQ4_NL bl, const in uint blockCoor
 }
 #endif
 
-#if defined(DATA_A_TQ2_0)
-layout(buffer_reference, std430, buffer_reference_align = 2) buffer decodeBufTQ2_0 {
-   block_tq2_0 block;
-};
-
-float16_t dequantFuncTQ2_0(const in decodeBufTQ2_0 bl, const in uint blockCoords[2], const in uint coordInBlock[2])
-{
-    const float16_t d = bl.block.d;
-    const uint idx = coordInBlock[1];
-
-    const uint byte_idx = ((idx >> 7) << 5) + (idx & 31u);
-    const uint qsshift = (((idx & 127u) >> 5) << 1);
-
-    const uint c = (uint(bl.block.qs[byte_idx]) >> qsshift) & 3u;
-    return d * float16_t(float(c) - 1.0f);
-}
-#endif
-
 #if defined(DATA_A_MXFP4)
 layout(buffer_reference, std430, buffer_reference_align = 2) buffer decodeBufMXFP4 {
    block_mxfp4 block;
@@ -733,8 +715,6 @@ float16_t dequantFuncMXFP4(const in decodeBufMXFP4 bl, const in uint blockCoords
 #define dequantFuncA dequantFuncIQ4_XS
 #elif defined(DATA_A_IQ4_NL)
 #define dequantFuncA dequantFuncIQ4_NL
-#elif defined(DATA_A_TQ2_0)
-#define dequantFuncA dequantFuncTQ2_0
 #elif defined(DATA_A_MXFP4)
 #define dequantFuncA dequantFuncMXFP4
 #endif
@@ -450,22 +450,6 @@ void main() {
             buf_a[buf_idx + 1] = FLOAT_TYPE(v.y);
             buf_a[buf_idx + 2] = FLOAT_TYPE(v.z);
             buf_a[buf_idx + 3] = FLOAT_TYPE(v.w);
-#elif defined(DATA_A_TQ2_0)
-            const uint idx = pos_a + (loadc_a + l) * p.stride_a / LOAD_VEC_A + loadr_a;
-            const uint buf_idx = (loadc_a + l) * SHMEM_STRIDE + loadr_a * LOAD_VEC_A;
-
-            const uint ib = idx / 128;                              // 2 values per idx (like Q2_K)
-            const uint iqs = idx % 128;                             // 0..127
-            const uint qsi = (iqs / 64) * 32 + (iqs % 16) * 2;      // Q2_K indexing pattern
-            const uint qsshift = ((iqs % 64) / 16) * 2;             // Q2_K shift: 0,2,4,6
-
-            const float d = float(data_a[ib].d);
-
-            const uvec2 qs = uvec2(data_a[ib].qs[qsi], data_a[ib].qs[qsi + 1]);
-            const vec2 v = d * (vec2((qs >> qsshift) & 3) - 1.0f);  // (q-1)*d
-
-            buf_a[buf_idx    ] = FLOAT_TYPE(v.x);
-            buf_a[buf_idx + 1] = FLOAT_TYPE(v.y);
 #elif defined(DATA_A_Q2_K)
             const uint idx = pos_a + (loadc_a + l) * p.stride_a / LOAD_VEC_A + loadr_a;
             const uint buf_idx = (loadc_a + l) * SHMEM_STRIDE + loadr_a * LOAD_VEC_A;
 
@@ -1355,22 +1355,6 @@ struct block_iq4_nl_packed16
 #define A_TYPE_PACKED16 block_iq4_nl_packed16
 #endif
 
-// TQ2_0
-#define QUANT_K_TQ2_0 256
-#define QUANT_R_TQ2_0 4
-
-struct block_tq2_0
-{
-    uint8_t qs[QUANT_K_TQ2_0/QUANT_R_TQ2_0];  // 256/4 = 64 bytes
-    float16_t d;
-};
-
-#if defined(DATA_A_TQ2_0)
-#define QUANT_K QUANT_K_TQ2_0
-#define QUANT_R QUANT_R_TQ2_0
-#define A_TYPE block_tq2_0
-#endif
-
 #define QUANT_K_MXFP4 32
 #define QUANT_R_MXFP4 2