Une implémentation logicielle permettant de compresser et d’évaluer les performances de grands modèles de langage (LLM) optimisés pour les instructions à l’aide des techniques de quantification FP8, GPTQ et SmoothQuant, à l’aide de llmcompressor
Les dernières heures ont apporté leur lot d’informations dans l’écosystème IA. Une implémentation logicielle permettant de compresser et d’évaluer les performances de grands modèles de langage (LLM) optimisés pour les instructions à l’aide des techniques de quantification FP8, GPTQ et SmoothQuant, à l’aide de llmcompressor Dans ce tutoriel, nous expliquons comment appliquer une quantification post-entraînement … Lire la suite