WIP

kylesayrs · kylesayrs · commit 05ec17e2caf4 · 2025-10-08T15:18:15.000-04:00
Signed-off-by: Kyle Sayers &lt;kylesayrs@gmail.com&gt;
diff --git a/src/compressed_tensors/modeling/__init__.py b/src/compressed_tensors/modeling/__init__.py
@@ -0,0 +1,18 @@
+# Copyright (c) 2021 - present / Neuralmagic, Inc. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+# flake8: noqa
+# isort: off
+from .kvcache import *
+from .attention import *
diff --git a/src/compressed_tensors/modeling/attention.py b/src/compressed_tensors/modeling/attention.py
@@ -23,9 +23,6 @@
     QuantizationStrategy,
     forward_quantize,
 )
-from compressed_tensors.quantization.lifecycle.initialize import (
-    _initialize_scale_zero_point,
-)
 from compressed_tensors.utils import getattr_chain
 from compressed_tensors.utils.internal import InternalModule
 from torch import Tensor
@@ -39,6 +36,7 @@
     "QuantizedAttentionImpl",
     "initialize_hooked_attention",
     "register_query_hook",
+    "IMPL_ATTR",
 ]
 
 
@@ -94,33 +92,6 @@ def forward(
             **kwargs,
         )
 
-    def initialize_qparams_once(self, model: PreTrainedModel, module: Module):
-        """
-        Initialize attention quantization parameters if they have not already been
-        initialized. KV cache quantization parameters are initialized by the
-        `QuantizedKVCache`
-
-        :param model: parent model of attention module
-        :param module: attention module to initialize with
-        """
-        # TODO: move to initialize.py
-        assert module is self.attn_module()
-        scheme: Optional[QuantizationScheme] = getattr(
-            module, "quantization_scheme", None
-        )
-        quant_args: Optional[QuantizationArgs] = getattr(
-            scheme, "input_activations", None
-        )
-
-        if (
-            not self._qparams_initialized
-            and quant_args is not None
-            and not scheme.kv_cache_only
-        ):
-            assert quant_args.strategy == QuantizationStrategy.TENSOR
-            _initialize_scale_zero_point(module, "q", quant_args)
-            self._qparams_initialized = True
-
 
 # ----- initialize ----- #
 
@@ -141,7 +112,6 @@ def initialize_hooked_attention(
 
     :param model: parent model of attention module
     :param module: attention module to initialize with
-    :param quantize: initialize attention quantization parameters
     """
     if not hasattr(module, IMPL_ATTR):
         module.register_module(IMPL_ATTR, QuantizedAttentionImpl(model.config, module))
@@ -153,11 +123,7 @@ def initialize_hooked_attention(
             AttentionInterface.register(HOOKED_ATTENTION_NAME, _ct_hooked_attention)
             model.config._attn_implementation = HOOKED_ATTENTION_NAME
 
-    impl: QuantizedAttentionImpl = getattr(module, IMPL_ATTR)
-    if quantize:
-        impl.initialize_qparams_once(model, module)
-
-    initialize_hooked_kv_cache(model, module, quantize=quantize)
+    initialize_hooked_kv_cache(model, module)
 
 
 # ----- hooks ----- #
diff --git a/src/compressed_tensors/modeling/kvcache.py b/src/compressed_tensors/modeling/kvcache.py
@@ -16,10 +16,10 @@
 from typing import Callable, Optional, Tuple
 from weakref import ref
 
-from compressed_tensors.quantization import QuantizationStrategy, forward_quantize
-from compressed_tensors.quantization.lifecycle.initialize import (
-    _initialize_scale_zero_point,
-)
+# from compressed_tensors.quantization import QuantizationStrategy, forward_quantize
+# from compressed_tensors.quantization.lifecycle.initialize import (
+#     _initialize_scale_zero_point,
+# )
 from compressed_tensors.utils import getattr_chain
 from compressed_tensors.utils.internal import InternalModule
 from torch import Tensor
@@ -33,6 +33,7 @@
     "initialize_hooked_kv_cache",
     "register_key_hook",
     "register_value_hook",
+    "KV_CACHE_ATTR",
 ]
 
 
@@ -88,25 +89,6 @@ def forward(
         self.past_key_values = None
         return ret
 
-    def initialize_qparams_once(self, model: PreTrainedModel, module: Module):
-        """
-        Initialize kv cache quantization parameters if they have not already been
-        initialized
-
-        :param model: parent model of attention module
-        :param module: attention module to initialize with
-        """
-        # TODO: move to initialize.py
-        assert module is self.attn_module()
-        scheme = getattr(module, "quantization_scheme", None)
-        quant_args = getattr(scheme, "input_activations", None)
-
-        if not self._qparams_initialized and quant_args is not None:
-            assert quant_args.strategy == QuantizationStrategy.TENSOR
-            _initialize_scale_zero_point(module, "k", quant_args)
-            _initialize_scale_zero_point(module, "v", quant_args)
-            self._qparams_initialized = True
-
 
 # ----- initialize ----- #
 
@@ -124,24 +106,17 @@ def _kv_cache_attention_hook(module: Module, args, kwargs):
     return args, kwargs
 
 
-def initialize_hooked_kv_cache(
-    model: PreTrainedModel, module: Module, quantize: bool = False
-):
+def initialize_hooked_kv_cache(model: PreTrainedModel, module: Module):
     """
     Initialize a `QuantizedKVCache` instance attached to attention
 
     :param model: parent model of attention module
     :param module: attention module to initialize with
-    :param quantize: initialize kv cache quantization parameters
     """
     if not hasattr(module, KV_CACHE_ATTR):
         module.register_module(KV_CACHE_ATTR, QuantizedKVCache(model.config, module))
         module.register_forward_pre_hook(_kv_cache_attention_hook, with_kwargs=True)
 
-    kv_cache: QuantizedKVCache = getattr(module, KV_CACHE_ATTR)
-    if quantize:
-        kv_cache.initialize_qparams_once(model, module)
-
 
 # ----- hooks ----- #
 
diff --git a/src/compressed_tensors/quantization/lifecycle/initialize.py b/src/compressed_tensors/quantization/lifecycle/initialize.py
@@ -17,6 +17,12 @@
 from typing import Optional, Tuple, Union
 
 import torch
+from compressed_tensors.modeling import (
+    IMPL_ATTR,
+    KV_CACHE_ATTR,
+    QuantizedAttentionImpl,
+    QuantizedKVCache,
+)
 from compressed_tensors.quantization import (
     FP8_E4M3_DATA,
     ActivationOrdering,
@@ -39,15 +45,18 @@
 from compressed_tensors.utils import (
     disable_hf_hook,
     get_execution_device,
+    get_head_dim,
     register_offload_parameter,
 )
 from torch.nn import Module, Parameter
+from transformers import PretrainedConfig
 
 
 __all__ = [
     "initialize_module_for_quantization",
     "is_attention_module",
     "initialize_qparams",
+    "initialize_attn_qparams",
 ]
 
 
@@ -81,7 +90,7 @@ def initialize_module_for_quantization(
 
     if is_attention_module(module):
         # quantized actions based on calltime status
-        _initialize_attn_scales(module)
+        initialize_attn_qparams(module, scheme, force_zero_point)
 
     else:
         if not isinstance(module, torch.nn.Linear):
@@ -131,14 +140,14 @@ def initialize_module_for_quantization(
                 force_zero_point=force_zero_point,
             )
 
-        module.quantization_scheme = scheme
-        module.quantization_status = QuantizationStatus.INITIALIZED
-
         with disable_hf_hook(module):
             # wrap forward call of module to perform
             # quantized actions based on calltime status
             wrap_module_forward_quantized(module, scheme)
 
+    module.quantization_scheme = scheme
+    module.quantization_status = QuantizationStatus.INITIALIZED
+
 
 def is_attention_module(module: Module):
     return "attention" in module.__class__.__name__.lower() and (
@@ -276,23 +285,48 @@ def initialize_qparams(
         register_offload_parameter(module, f"{base_name}_zero_point", init_zero_point)
 
 
-def _initialize_attn_scales(module: Module) -> None:
-    """Initlaize k_scale, v_scale for  self_attn"""
+def initialize_attn_qparams(
+    module: Module, scheme: QuantizationScheme, force_zero_point: bool
+):
+    """Initlaize k_scale, v_scale for self_attn"""
 
-    expected_shape = 1  # per tensor
+    impl: Optional[QuantizedAttentionImpl] = getattr(module, IMPL_ATTR, None)
+    kv_cache: Optional[QuantizedKVCache] = getattr(module, KV_CACHE_ATTR, None)
 
-    param = next(module.parameters())
-    scale_dtype = param.dtype
-    device = param.device
+    if impl is None and kv_cache is None:
+        raise ValueError("Attention module has quantization scheme but no attached ")
 
-    init_scale = Parameter(
-        torch.empty(expected_shape, dtype=scale_dtype, device=device),
-        requires_grad=False,
+    config: PretrainedConfig = getattr(impl, "config", None) or getattr(
+        kv_cache, "config", None
     )
-    register_offload_parameter(module, KVCacheScaleType.KEY.value, init_scale)
+    head_dim = get_head_dim(config)
+    observed_shape = (head_dim,)  # (batch_size, num_attention_heads, slen, head_dim)
+    observed_dtype = next(module.parameters()).dtype
+
+    if impl is not None:
+        initialize_qparams(
+            module,
+            "q",
+            scheme.input_activations,
+            observed_shape=observed_shape,
+            observed_dtype=observed_dtype,
+            force_zero_point=force_zero_point,
+        )
 
-    init_scale = Parameter(
-        torch.empty(expected_shape, dtype=scale_dtype, device=device),
-        requires_grad=False,
-    )
-    register_offload_parameter(module, KVCacheScaleType.VALUE.value, init_scale)
+    if kv_cache is not None:
+        initialize_qparams(
+            module,
+            "k",
+            scheme.input_activations,
+            observed_shape=observed_shape,
+            observed_dtype=observed_dtype,
+            force_zero_point=force_zero_point,
+        )
+        initialize_qparams(
+            module,
+            "v",
+            scheme.input_activations,
+            observed_shape=observed_shape,
+            observed_dtype=observed_dtype,
+            force_zero_point=force_zero_point,
+        )
diff --git a/src/compressed_tensors/utils/helpers.py b/src/compressed_tensors/utils/helpers.py
@@ -20,7 +20,7 @@
 
 import numpy
 import torch
-from transformers import AutoConfig
+from transformers import AutoConfig, PretrainedConfig
 
 
 T = TypeVar("T", bound="Callable")  # used by `deprecated`
@@ -45,6 +45,7 @@
     "unpack_bitmasks",
     "patch_attr",
     "ParameterizedDefaultDict",
+    "get_head_dim",
 ]
 
 FSDP_WRAPPER_NAME = "_fsdp_wrapped_module"
@@ -396,3 +397,14 @@ def get(self, *args, factory_kwargs: Mapping = MappingProxyType({})) -> Any:
         """
         with patch_attr(self, "_factory_kwargs", factory_kwargs):
             return self[args]
+
+
+def get_head_dim(config: PretrainedConfig) -> int:
+    if hasattr(config, "head_dim"):
+        return config.head_dim
+
+    elif hasattr(config, "hidden_size") and hasattr(config, "num_attention_heads"):
+        return config.hidden_size // config.num_attention_heads
+
+    else:
+        raise ValueError()