Qwen 3 от Alibaba: обзор возможностей и сравнение с конкурентами

Qwen 3 Alibaba — Обзор, тесты и сравнение с GPT-4o и Claude 3.7 Sonnet

Qwen 3 — это серия языковых моделей от Alibaba Cloud, выпущенная в апреле 2025 года. Линейка включает модели с различным числом параметров — от 0,6 до 235 миллиардов, что позволяет использовать их как в крупных проектах, так и в небольших компаниях.

Модели Qwen 3 показывают высокие результаты в задачах, связанных с программированием, математикой и обработкой текста на нескольких языках. Они поддерживают 119 языков, включая русский, английский и китайский.

Скриншот интерфейса платформы GPTunneL, модель Qwen3 235B. На экране приветствие пользователя с именем George и предложены быстрые действия: написание запросов, выбор кодовых названий проекта, поиск или создание GPT-ассистентов и конструктор телеграм-ботов. В нижней части экрана расположено поле для ввода текста сообщения. Интерфейс выполнен в минималистичном стиле с чёрным текстом на белом фоне.

В статье мы рассмотрим основные характеристики Qwen 3, её производительность на стандартных тестах, сравним с другими популярными моделями, такими как GPT-4o и Claude 3.7 Sonnet, и приведём примеры использования.

Основные характеристики Qwen 3

Модели обучены на датасете из 36 триллионов токенов, что в два раза больше, чем у предыдущей версии Qwen2.5. Это масштабный корпус из примерно, включающий тысячи страниц текстов с веб-страниц, PDF-документов и синтетические данные по математике, программированию и другим областям. В линейку входят восемь моделей:

  • Две модели с архитектурой смеси экспертов (MoE): Qwen3-235B-A22B (235 миллиардов параметров, из которых 22 миллиарда активны) и Qwen3-30B-A3B (30 миллиардов параметров, 3 миллиарда активных).
  • Шесть плотных моделей с числом параметров от 0,6 до 32 миллиардов.

Qwen 3 обладает рядом особенностей, которые делают её конкурентоспособной среди других языковых моделей:

  • Размер и параметры: Модели варьируются от 0,6 до 235 миллиардов параметров. В линейке есть модели с архитектурой смеси экспертов (MoE), которые активируют только часть параметров, что повышает эффективность.
  • Скорость генерации: Архитектура MoE позволяет активировать только часть параметров, что делает модели более экономичными по вычислительным затратам по сравнению с плотными аналогами.
  • Поддержка языков: Модели поддерживают 119 языков, включая русский. Они адаптированы к грамматическим и культурным особенностям разных языков.
  • Работа со структурированными данными: Qwen 3 оптимизирована для анализа документов в форматах PDF, таблиц Excel и JSON, что полезно для бизнес-задач.
  • Безопасность: В моделях встроены механизмы, предотвращающие генерацию нежелательного контента, что соответствует стандартам этичного использования ИИ.

Производительность на тестах

Qwen 3 показывает высокие результаты на стандартных тестах, особенно в задачах, связанных с программированием, математикой и общим пониманием. Ниже приведены показатели для основных моделей:

Бенчмарк Qwen3-235B-A2 2B Qwen3-30 B-A3B Qwen3-4 B GPT-4o Gemini 2.5 Pro
ArenaHard 95.6 91.0 76.6 85.3 96.4
AIME’25 81.5 70.9 65.6 7.6 86.7
LiveCodeBench 70.7 62.6 54.2 32.7 70.4
CodeForces (Elo) 2056 1974 1671 864 2001
GPQA 68.21 65.8 55.9 46.0 42.4
LiveBench 77.1 74.3 63.6 52.2 82.4
BFCL 70.8 69.1 65.9 72.5 62.9
MultiIF 71.9 72.2 66.3 65.6 77.8

Источник: Анонс Qwen 3

Эти данные основаны на официальных тестах Alibaba. Они показывают процент выполненных задач в тех или иных бенчмарках. Например, в бенчмарке LiveCodeBench, который тестирует способность модели создавать код для реальных рабочих задач, Qwen 3 235B показала результат в 70.7% успешно выполненных задач. В то же время, в тестировании GPQA модель показлаа результат в 68.2%. Оно состоит из более чем 4000 задач уровня выпускников университетов в таких областях науки, как биология, физика, химия и др.

Модель Qwen3-235B-A22B показывает результаты, сравнимые с такими моделями, как Gemini 2.5 Pro, особенно в задачах программирования (CodeForces Elo: 2056) и математики (AIME’25: 81.5). Меньшие модели, например Qwen3-4B, также демонстрируют хорошие результаты, превосходя более крупную модель GPT-4o.

Сравнение с другими моделями

Чтобы оценить позицию Qwen 3 на рынке, сравним её с популярными моделями, такими как GPT-4o от OpenAI и Claude 3.7 Sonnet от Anthropic:

Производительность согласно тестированиям, проведённым Artificial Analysis:

  • MMLU-Pro (Massive Multitask Language Understanding) проверяет общие знания и способность рассуждать по самым разным предметным областям (история, наука, математика и т. д.). Qwen3-235B-A22B набирает 84 % (GPT-4o — 87 %, Claude 3.7 Sonnet — 80.3 %).
  • HumanEval оценивает умение писать корректный код по текстовому описанию задачи (Python-функции). В этом тесте Qwen3-235B-A22B получает 95 %, тогда как GPT-4o и Gemini 2.5 Pro — по 99 % (данные по Claude 3.7 Sonnet в отчёте не указаны).

Экономичность

  • Благодаря архитектуре MoE, Qwen 3 может быть более экономичной в использовании. Стоимость за генерацию 1 тысячи токенов в GPTunneL для Qwen3-235B-A22B составляет 0.18 ₽, что ниже, чем у GPT-4o (2.7 ₽) и Claude 3.7 (4.5 ₽). Стоимость генерации можно посмотреть здесь.

Генеративные задачи: где Qwen 3 блистает

Qwen 3 особенно сильна в генеративных задачах — от кода до креативного письма. Ниже пять ключевых сценариев с примерами и готовыми промптами.

1. Генерация кода

Qwen 3 демонстрирует высокие результаты в программировании. Она способна генерировать код на Python, JavaScript, SQL и других языках с высокой точностью.

  • Пример: Разработчик получает готовый REST API на Python с минимальными правками.
  • Попробуйте этот промпт для Qwen 3: «Разработай сервер на Python (Flask), обрабатывающий загрузку CSV-файлов с пользовательскими данными, сохраняющий их в SQLite и возвращающий API-ответ с количеством строк и полем последнего пользователя. Добавь валидацию входного файла.»
  • Преимущество: Ускоряет разработку, автоматизируя рутинные задачи и помогая в отладке.

2. Создание многоязычного контента

Поддержка 119 языков позволяет Qwen 3 генерировать маркетинговые и технические тексты, адаптированные под культурные особенности.

  • Пример: Международная компания получает рекламные тексты на русском, китайском и английском, готовые к размещению.
  • Попробуйте этот промпт для Qwen 3: «Создай рекламный блок для международного сайта авиакомпании: по 2 предложения на английском, французском и арабском, в стиле "приглашения к приключению", избегая клише. Учти культурные особенности и местные метафоры.»
  • Преимущество: Экономит время и ресурсы на перевод и адаптацию, обеспечивая высокое качество.

3. Генерация образовательных материалов

Qwen 3 может создавать учебные задания, тесты и пошаговые решения, особенно в математике и программировании.

  • Пример: Образовательная платформа автоматически получает задачу по алгебре с разъяснением каждого шага.
  • Попробуйте этот промпт для Qwen 3 «Составь нестандартную задачу по алгебре для 9 класса: с системой двух уравнений, где один из коэффициентов задан через параметр. Приведи поэтапное объяснение решения и сформулируй подсказку для учеников с низкой мотивацией.»
  • Преимущество: Персонализирует обучение, помогая студентам быстрее усваивать материал.

4. Генерация креативных текстов

Qwen 3 способна создавать сценарии, рассказы и диалоги для игр, фильмов или маркетинговых кампаний.

  • Пример: Студия разработки игр получает диалоги персонажей в стиле фэнтези, сохранив логическую последовательность.
  • Попробуйте этот промпт для Qwen 3: «Напиши диалог между андроидом-художником и архивариусом-роботом, обсуждающими исчезнувшее человечество. Тон — философский, с нотами иронии. Каждая реплика должна раскрывать культурные отсылки к эпохе 2000-х годов.»
  • Преимущество: Ускоряет процесс создания контента и снижает расходы на сценаристов.

5. Перевод и локализация

Модель не только переводит тексты, но и адаптирует их под культурные особенности целевой аудитории.

  • Пример: Qwen 3 переводит техническую документацию с английского на русский, добавляя локальные термины и пояснения.
  • Попробуйте этот промпт для Qwen 3: «Переведи технический текст с английского на русский, сохранив стиль документации, но адаптируя фразы под российскую аудиторию: “Deploy the containerized backend via Kubernetes with persistent volumes and load balancing.” Объясни термины в скобках.»
  • Преимущество: Повышает точность и доступность контента для разных аудиторий.

Как использовать Qwen 3 через GPTunneL

Платформа GPTunneL позволяет легко работать с моделями Qwen 3. Доступны следующие модели:

Бесплатная версия Qwen3-4B позволяет протестировать модель без затрат. Это удобно для студентов, разработчиков и небольших компаний.

Чтобы начать работу:

  1. Зарегистрируйтесь на сайте GPTunneL.
  2. Пополните свой баланс – достаточно и 100 рублей на генерацию.
  3. Перейдите в раздел моделей и выберите Qwen.
  4. Выберите нужную модель.
  5. Введите запросы и работайте с моделью через интерфейс.

На платформе также есть руководства и поддержка для пользователей.

Заключение

Qwen 3 сочетает высокую производительность, экономичность и доступность. Она подходит для различных задач, от программирования до создания контента, и может быть полезна как для бизнеса, так и для разработчиков и образовательных учреждений.

Через платформу GPTunneL можно легко протестировать модели Qwen 3, включая бесплатную версию Qwen3-4B. Qwen 3 показывает, что открытые модели могут быть конкурентоспособными и инновационными, открывая новые возможности для использования ИИ.

Попробовать в GPTunneL