Dans un monde de plus en plus tourné vers l’intelligence artificielle, les avancées technologiques façonnent notre quotidien et redéfinissent les interactions humaines. Le lancement de Qwen3, le dernier modèle de langage développé par l’équipe Qwen, marque une étape importante dans cette révolution numérique. Ce modèle dépasse le simple cadre d’outil de traitement du langage naturel ; il représente une avancée significative dans la capacité des machines à comprendre et à générer du texte de manière contextuelle et pertinente.

Avec Qwen3, l’équipe a élargi les horizons de la compréhension linguistique. En intégrant des millions de données et en perfectionnant les algorithmes d’apprentissage, ce modèle est conçu pour rivaliser avec les leaders du secteur de l’IA, tels que DeepSeek ou Gemini, tout en offrant des fonctionnalités novatrices. L’importance de cette innovation va au-delà des performances techniques ; elle soulève des questions cruciales sur l’avenir de la communication, de l’éducation et même de la créativité.

Imaginez un avenir où les assistants virtuels deviennent des partenaires de collaboration dans des domaines variés, de la recherche scientifique à la création artistique. Grâce à sa capacité à traiter des milliards de paramètres et à s’adapter à divers contextes et langues, Qwen3 ouvre la voie à de nouvelles applications susceptibles de transformer notre interaction avec la technologie. De plus, la flexibilité que ce modèle offre en matière de raisonnement, à travers des modes de pensée hybrides, propose des perspectives prometteuses pour des solutions sur-mesure, adaptées aux besoins variés des utilisateurs.

Cette avancée technologique, tout en apportant des bénéfices indéniables, soulève également des enjeux éthiques et pratiques. Comment garantir que ces outils soient utilisés de manière responsable ? Quel sera l’impact sur les emplois traditionnels et sur l’enseignement des compétences linguistiques et analytiques ? En abordant ces questions, Qwen3 ne se limite pas à être un simple modèle de langage, mais devient un catalyseur de réflexion sur l’avenir de l’intelligence artificielle et son intégration dans notre société.

Fonctionnalités principales

L’équipe Qwen a récemment annoncé le lancement de Qwen3, le dernier modèle de langage qui enrichit la famille des modèles Qwen. Parmi ses avancées notables, le modèle phare Qwen3-235B-A22B a montré des performances impressionnantes lors des évaluations de benchmarks en matière de codage, de mathématiques et d’autres compétences générales. En comparaison avec d’autres modèles de pointe tels que DeepSeek-R1, o1, o3-mini, Grok-3 et Gemini-2.5-Pro, Qwen3 s’est distingué par sa compétitivité. De plus, le modèle MoE de taille réduite, Qwen3-30B-A3B, a surpassé le QwQ-32B tout en utilisant dix fois moins de paramètres activés. Même un modèle compact comme Qwen3-4B a réussi à rivaliser avec les performances de Qwen2.5-72B-Instruct.

L’équipe a également mis à disposition en open-weight deux modèles MoE: le Qwen3-235B-A22B, comptant un total de 235 milliards de paramètres dont 22 milliards activés, et le Qwen3-30B-A3B, plus petit, avec 30 milliards de paramètres au total et 3 milliards activés. Parallèlement, six modèles denses sont accessibles en open-weight sous licence Apache 2.0: Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B, et Qwen3-0.6B.

Modèle Couches Têtes (Q / KV) Embedding partagé Longueur de contexte
Qwen3-0.6B 28 16 / 8 Oui 32K
Qwen3-1.7B 28 16 / 8 Oui 32K
Qwen3-4B 36 32 / 8 Oui 32K
Qwen3-8B 36 32 / 8 Non 128K
Qwen3-14B 40 40 / 8 Non 128K
Qwen3-32B 64 64 / 8 Non 128K
Modèle Couches Têtes (Q / KV) Experts (Total / Activés) Longueur de contexte
Qwen3-30B-A3B 48 32 / 4 128 / 8 128K
Qwen3-235B-A22B 94 64 / 4 128 / 8 128K

Les modèles post-entraînés, tels que Qwen3-30B-A3B, ainsi que leurs équivalents pré-entraînés, comme Qwen3-30B-A3B-Base, sont disponibles sur des plateformes reconnues telles que Hugging Face, ModelScope et Kaggle. Pour les utilisateurs souhaitant déployer ces modèles, l’équipe recommande l’utilisation de frameworks tels que SGLang et vLLM. Pour une utilisation locale, des outils comme Ollama, LMStudio, MLX, llama.cpp, et KTransformers sont vivement conseillés. Ces options permettent une intégration fluide de Qwen3 dans divers workflows, que ce soit dans le cadre de la recherche, du développement ou de la production.

L’équipe affirme que la publication et l’open-sourcing de Qwen3 vont considérablement propulser la recherche et le développement dans le domaine des grands modèles de fondation. Leur ambition est de fournir aux chercheurs, développeurs et organisations du monde entier les outils nécessaires pour concevoir des solutions innovantes basées sur ces modèles avancés.

Les utilisateurs peuvent essayer Qwen3 sur Qwen Chat Web (chat.qwen.ai) ou via l’application mobile.

Modes de pensée hybrides

Les modèles Qwen3 introduisent une approche novatrice avec des modes de pensée hybrides pour la résolution de problèmes. Deux modes sont disponibles :

  1. Mode réfléchi: Ce mode permet au modèle de raisonner de manière approfondie, étape par étape, avant de fournir une réponse. Il est particulièrement adapté pour traiter des problèmes complexes qui exigent une réflexion poussée.
  2. Mode non réfléchi: Dans ce mode, le modèle génère des réponses rapides et quasi instantanées, idéales pour des questions simples où la vitesse est primordiale.

Cette flexibilité permet aux utilisateurs de choisir le niveau de réflexion que le modèle déploie en fonction de la nature de la tâche. Par exemple, les problèmes difficiles peuvent être abordés avec un raisonnement approfondi, tandis que les questions simples peuvent être traitées rapidement. De plus, l’intégration de ces deux modes améliore la capacité du modèle à gérer un budget de raisonnement stable et efficace. Des améliorations de performance progressives et évolutives sont directement liées au budget computationnel de raisonnement alloué. Cette conception permet aux utilisateurs de configurer des budgets spécifiques aux tâches, optimisant ainsi le rapport entre coût et qualité d’inférence.

Prise en charge multilingue

Les modèles Qwen3 se distinguent par leur capacité à prendre en charge 119 langues et dialectes. Cette fonctionnalité multilingue étendue ouvre de nouvelles possibilités pour des applications à l’échelle internationale, permettant aux utilisateurs du monde entier de tirer parti de la puissance de ces modèles.

Famille de langue Langues et dialectes
Indo-européenne Anglais, Français, Portugais, Allemand, Roumain, Suédois, Danois, Bulgare, Russe, Tchèque, Grec, Ukrainien, Espagnol, Néerlandais, Slovaque, Croate, Polonais, Lituanien, Norvégien (Bokmål), Norvégien (Nynorsk), Persan, Slovène, Gujarati, Letton, Italien, Occitan, Népali, Marathi, Biélorusse, Serbe, Luxembourgeois, Vénitien, Assami, Gallois, Silésien, Asturien, Chhattisgarhi, Awadhi, Maithili, Bhojpuri, Sindhi, Irlandais, Féroïen, Hindi, Pendjabi, Bengali, Oriya, Tadjik, Yiddish oriental, Lombard, Ligurien, Sicilien, Frioulan, Sarde, Galicien, Catalan, Islandais, Albanais tosk, Limbourgeois, Dari, Afrikaans, Macédonien, Cinghalais, Ourdou, Magahi, Bosniaque, Arménien
Sino-tibétaine Chinois (simplifié, traditionnel, cantonais), Birman
Afro-asiatique Arabe (standard, nadji, levantin, égyptien, marocain, mésopotamien, ta’izzi-adéni, tunisien), Hébreu, Maltais
Austronésienne Indonésien, Malais, Tagalog, Cebuano, Javanais, Soundanais, Minangkabau, Balinais, Banjar, Pangasinan, Iloko, Waray (Philippines)
Dravidienne Tamoul, Télougou, Kannada, Malayalam
Turque Turc, Azerbaïdjanais du Nord, Ouzbek du Nord, Kazakh, Bachkir, Tatar
Taï-Kadaï Thaï, Lao
Ouralienne Finnois, Estonien, Hongrois
Austroasiatique Vietnamien, Khmer
Autres Japonais, Coréen, Géorgien, Basque, Haïtien, Papiamento, Kabuverdianu, Tok Pisin, Swahili

Capacités agentiques améliorées

Les modèles Qwen3 ont été optimisés pour améliorer leurs capacités de codage et leurs compétences agentiques. De plus, le support de la Méthode de Contrôle de Processus (MCP) a été renforcé, illustrant ainsi comment Qwen3 raisonne et interagit de manière dynamique avec son environnement.

Pré-entraînement

Le processus de pré-entraînement de Qwen3 a été élargi par rapport à celui de Qwen2.5. Alors que Qwen2.5 avait été pré-entraîné sur 18 000 milliards de tokens, Qwen3 utilise près du double, soit environ 36 000 milliards de tokens couvrant les 119 langues et dialectes. Pour constituer cet ensemble de données vaste, l’équipe a collecté des informations non seulement sur le web, mais aussi à partir de documents similaires à des PDF. Le modèle Qwen2.5-VL a été utilisé pour extraire le texte de ces documents, tandis que Qwen2.5 a contribué à améliorer leur qualité. Afin d’enrichir le volume de données en mathématiques et en codage, les modèles Qwen2.5-Math et Qwen2.5-Coder ont été déployés pour générer des données synthétiques, incluant des manuels scolaires, des paires de questions-réponses et des extraits de code.

Le processus de pré-entraînement se déroule en trois étapes clés :

  • Étape 1 (S1): Le modèle a été pré-entraîné sur plus de 30 000 milliards de tokens avec une longueur de contexte de 4K tokens, lui permettant d’acquérir des compétences linguistiques fondamentales et des connaissances générales.
  • Étape 2 (S2): L’ensemble de données a été enrichi en augmentant la proportion de données riches en connaissances, notamment dans les domaines STEM, le codage et les tâches de raisonnement. Cette phase a vu le modèle pré-entraîné sur 5 000 milliards de tokens supplémentaires.
  • Étape 3 (S3): Des données longues de haute qualité ont été intégrées pour étendre la longueur de contexte à 32K tokens, permettant au modèle de traiter efficacement des entrées plus longues.

Grâce aux avancées dans l’architecture du modèle, à l’augmentation du volume de données d’entraînement et à des méthodes de formation plus efficaces, les performances globales des modèles denses de base Qwen3 égalent celles de modèles Qwen2.5 plus volumineux. Par exemple, les modèles Qwen3-1.7B, Qwen3-4B, Qwen3-8B, Qwen3-14B et Qwen3-32B-Base fonctionnent aussi bien que leurs homologues Qwen2.5-3B, 7B, 14B, 32B et 72B-Base respectivement. Notamment, dans des domaines tels que STEM, le codage et le raisonnement, les modèles denses de base Qwen3 surpassent même les modèles Qwen2.5 plus volumineux. Les modèles MoE de base Qwen3 atteignent également des performances comparables à celles des modèles denses Qwen2.5, tout en utilisant seulement 10 % des paramètres activés, ce qui permet une réduction significative des coûts d’entraînement et d’inférence.

Post-entraînement

Pour développer un modèle hybride capable de raisonnement pas-à-pas et de réponses rapides, l’équipe Qwen a mis en place un pipeline d’entraînement en quatre étapes :

  1. Démarrage à froid avec des chaînes de raisonnement longues (long CoT).
  2. Apprentissage par renforcement basé sur le raisonnement (RL).
  3. Fusion des modes de pensée.
  4. Apprentissage par renforcement général.

Dans la première étape, les modèles ont été affinés à l’aide de données variées de chaînes de pensée longues, couvrant de nombreuses tâches et domaines, tels que les mathématiques, le codage, le raisonnement logique et les problèmes STEM. Cette phase visait à doter le modèle de capacités fondamentales en matière de raisonnement. La deuxième étape a été dédiée à l’augmentation des ressources de calcul pour le RL, en utilisant des récompenses basées sur des règles pour améliorer les capacités d’exploration et d’exploitation du modèle.

Lors de la troisième étape, les capacités non réfléchies ont été intégrées au modèle réfléchi en l’affinant avec une combinaison de données CoT longues et de données d’instruction tuning courantes. Ces données ont été générées par le modèle réfléchi amélioré à l’étape précédente, garantissant une fusion fluide entre raisonnement approfondi et réponses rapides. Enfin, à la quatrième étape, un apprentissage par renforcement a été appliqué à plus de 20 tâches générales pour renforcer encore les capacités globales du modèle et corriger les comportements indésirables. Ces tâches comprenaient le suivi d’instructions, le respect de formats, les capacités d’agent, et bien d’autres.

Développer avec Qwen3

Voici un guide pratique pour utiliser Qwen3 sur différents frameworks. Un exemple standard est proposé pour utiliser Qwen3-30B-A3B avec les transformers de Hugging Face :

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

## Chargement du tokenizer et du modèle
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

## Préparation de l'entrée du modèle
prompt = "Donnez-moi une brève introduction aux grands modèles de langage."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Active ou désactive le mode réfléchi. La valeur par défaut est True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

## Génération de texte
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

## Analyse du contenu réfléchi
try:
    # rindex trouvant 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip()
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip()

print("thinking content:", thinking_content)
print("content:", content)

Pour désactiver le raisonnement, il suffit de modifier l’argument enable_thinking comme suit :

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # True est la valeur par défaut pour enable_thinking.
)

Pour le déploiement, il est recommandé d’utiliser sglang>=0.4.6.post1 ou vllm>=0.8.4 pour créer un point de terminaison compatible avec l’API OpenAI :

  • SGLang :
python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3
  • vLLM :
vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

Pour un développement local, il est possible d’utiliser Ollama avec une simple commande ollama run qwen3:30b-a3b pour interagir avec le modèle, ou bien d’utiliser LMStudio, llama.cpp, ou ktransformers pour des intégrations locales.

Usages avancés

Un mécanisme de commutation souple est mis à disposition, permettant aux utilisateurs de contrôler dynamiquement le comportement du modèle lorsque enable_thinking=True. Concrètement, il est possible d’ajouter les balises /think et /no_think aux messages utilisateur ou système afin de changer de mode de réflexion à chaque tour de conversation. Le modèle suivra l’instruction la plus récente dans les dialogues multi-tours.

Voici un exemple d’une conversation multi-tours :

from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
    def init(self, model_name="Qwen/Qwen3-30B-A3B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []

    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]

        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)

        # Mise à jour de l’historique
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})

        return response

## Exemple d’utilisation
if name  "main":
    chatbot = QwenChatbot()

    # Première entrée (sans balise /think ou /no_think — le mode réfléchi est activé par défaut)
    user_input_1 = "Combien de r dans les fraises ?"
    print(f"User: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"Bot: {response_1}")
    print("-")

    # Deuxième entrée avec /no_think
    user_input_2 = "Alors, combien de r dans les myrtilles ? /no_think"
    print(f"User: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"Bot: {response_2}")

L’émergence de Qwen3 représente une avancée significative dans le domaine des modèles de langage, offrant des performances inégalées grâce à ses architectures novatrices et à ses capacités multilingues. Les modes de pensée hybrides permettent une approche adaptable dans la résolution de problèmes, tandis que l’intégration de vastes ensembles de données renforce la pertinence et la précision des réponses fournies. En outre, la compatibilité avec divers outils et frameworks ouvre des perspectives d’utilisation variées, allant de l’éducation à la recherche, en passant par le développement d’applications innovantes.

Les implications de cette technologie vont bien au-delà des simples performances techniques. En facilitant l’accès à la connaissance et en améliorant les interactions entre l’homme et la machine, Qwen3 soulève des questions sur la manière dont nous concevons l’intelligence et le raisonnement. À une époque où les compétences linguistiques et analytiques sont de plus en plus valorisées, la capacité de ce modèle à évoluer et à s’adapter aux besoins des utilisateurs pourrait transformer des secteurs entiers, redéfinissant les dynamiques professionnelles et éducatives.

En se penchant sur l’avenir de l’intelligence artificielle, il est essentiel de considérer les enjeux éthiques qui en découlent. La responsabilité dans l’utilisation de ces technologies, le respect de la vie privée, et les effets sur l’emploi sont autant de sujets qui méritent d’être examinés de manière approfondie. La discussion autour de Qwen3 ne se limite pas à ses caractéristiques techniques, mais engage également une réflexion plus large sur notre rapport à la technologie et à l’intelligence.

Ainsi, l’exploration des capacités de Qwen3 et des modèles de langage en général invite à une prise de conscience des possibilités et des défis qui se présentent à nous. À mesure que nous avançons dans cette ère numérique, il est impératif de s’engager dans des dialogues constructifs sur l’intégration de l’intelligence artificielle dans notre quotidien et sur son impact sur la société.

Aller plus loin

Pour approfondir vos connaissances sur les modèles de langage et l’intelligence artificielle, laissez-vous guider par une sélection de ressources précieuses qui vous ouvriront les portes d’un monde fascinant.

Commencez votre exploration avec Hugging Face, une plateforme incontournable pour les développeurs et chercheurs en intelligence artificielle. Ce site vibrant abrite une large gamme de modèles de langage, des outils de traitement de texte, ainsi qu’une communauté active où les idées et les projets s’échangent harmonieusement. En vous aventurant sur cette ressource, vous découvrirez comment intégrer des modèles comme Qwen3 dans vos propres applications, vous permettant ainsi de donner vie à vos ambitions créatives.

Poursuivez votre chemin avec OpenAI, une véritable pionnière dans le domaine des modèles de langage. Ce site regorge de publications captivantes sur des technologies révolutionnaires comme GPT et DALL-E. Plongez dans des articles de recherche et des études de cas enrichissantes qui élargiront votre compréhension des applications pratiques de l’intelligence artificielle, tout en vous tenant au fait des dernières innovations.

N’hésitez pas à vous diriger vers Towards Data Science, un blog qui offre une multitude d’articles éclairants sur la science des données et l’apprentissage automatique. Les contributions d’experts vous permettront de démystifier des concepts complexes et d’explorer des cas d’utilisation concrets, rendant ainsi ces sujets souvent intimidants beaucoup plus accessibles et engageants.

Une autre étape enrichissante vous attend sur Kaggle, une plateforme qui combine compétition et apprentissage en science des données. Ici, vous aurez accès à des ensembles de données, des notebooks interactifs et des compétitions qui vous permettront de mettre en pratique vos compétences en modélisation de langage. C’est une occasion unique d’apprendre tout en vous mesurant à d’autres passionnés d’intelligence artificielle, dans une ambiance stimulante et collaborative.

Pour les esprits curieux désireux de se plonger dans les recherches les plus récentes, arXiv est une archive en ligne de prépublications scientifiques qui ne manquera pas de vous fasciner. Explorez des articles portant sur les modèles de langage, les algorithmes d’apprentissage profond, et bien d’autres sujets de pointe, vous permettant ainsi de rester à la pointe des avancées dans ce domaine en constante évolution.

N’oubliez pas de visiter DeepMind, un leader incontesté de la recherche en intelligence artificielle. Leurs projets innovants et résultats de recherche vous montreront comment l’IA peut résoudre des problèmes complexes, allant des enjeux de santé aux défis de la science fondamentale. Cette ressource vous inspirera sans aucun doute dans votre propre parcours d’apprentissage.

Enfin, pour une réflexion sur les enjeux éthiques qui entourent ces nouvelles technologies, l’AI Ethics Lab se présente comme une ressource essentielle. Vous y trouverez des discussions éclairantes et des ressources pour naviguer dans les défis éthiques posés par l’intelligence artificielle, vous permettant ainsi de mieux comprendre les implications sociétales qui en découlent.

Ces ressources vous guideront sur le chemin de la compréhension des modèles de langage et de l’intelligence artificielle, tout en vous tenant informé des tendances et recherches récentes. Que vous soyez étudiant, développeur ou chercheur, vous trouverez dans ces liens une multitude d’opportunités pour enrichir votre expertise et mieux appréhender les enjeux contemporains de l’IA.