huggingface · dacorvo · Sep 30, 2024 · Sep 30, 2024 · Sep 30, 2024
@@ -19,7 +19,7 @@
 from datasets import load_dataset
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
-from optimum.quanto import Calibration, freeze, qfloat8, qint4, qint8, quantize
+from optimum.quanto import Calibration, QuantizedModelForCausalLM, qfloat8, qint4, qint8
 
 
 @torch.no_grad()
@@ -133,15 +133,14 @@ def main():
     print(f"{args.model} (w: {args.weights}, a: {args.activations})")
     weights = keyword_to_itype(args.weights)
     activations = keyword_to_itype(args.activations)
-    quantize(model, weights=weights, activations=activations)
+    qmodel = QuantizedModelForCausalLM.quantize(model, weights=weights, activations=activations)
     if activations is not None:
         print("Calibrating ...")
         cal_dataset.shuffle(args.seed)
         with Calibration(streamline=args.no_streamline, debug=args.debug):
             cal_samples = args.batch_size * args.validation_batch
-            calibrate(model, tokenizer, cal_dataset, device, args.batch_size, samples=cal_samples)
-    freeze(model)
-    generate(model, tokenizer, device, args.prompt, args.max_new_tokens)
+            calibrate(qmodel, tokenizer, cal_dataset, device, args.batch_size, samples=cal_samples)
+    generate(qmodel, tokenizer, device, args.prompt, args.max_new_tokens)
 
 
 if __name__ == "__main__":

@@ -56,6 +56,9 @@ def __getattr__(self, name: str) -> Any:
     def forward(self, *args, **kwargs):
         return self._wrapped.forward(*args, **kwargs)
 
+    def __call__(self, *args, **kwargs):
+        return self._wrapped.forward(*args, **kwargs)
+
     @staticmethod
     def _qmap_name():
         return f"{QuantizedTransformersModel.BASE_NAME}_qmap.json"