Главная страница » Новости » Grok, ChatGPT, Gemini, Claude: Обзор последних обновлений популярных чатботов

Grok, ChatGPT, Gemini, Claude: Обзор последних обновлений популярных чатботов

cover_grok-chatgpt-gemini-claude_-obzor-poslednih-obnovlenij

ИИ-чат-боты быстро меняются, и летом 2025 года вышло сразу несколько важных обновлений. OpenAI представила GPT-5, Claude обновилась до Opus 4.1, Grok перешла на новую четвертую версию, а Gemini выпустил обновление, которое улучшает возможности модели в написании кода.

Мы протестировали все четыре системы — ChatGPT, Grok, Claude и Gemini. В статье расскажем, чем полезен каждый из инструментов и какие у них есть слабые места. Будет полезно тем, кто работает в IT, продажах или маркетинге.

Grok 4

Grok — чат-бот от xAI, компании Илона Маска, который вышел в 2023 году. До июля этого года самой мощной версией модели была Grok 3.

Grok 4 отличается от предыдущей версии Grok 3 тем, как ее обучали: суперкомпьютер Colossus (200 000 GPU) + новый метод обучения с подкреплением. По словам компании, так им удалось сделать обучение в шесть раз эффективнее.

Производительность Grok 4 выросла, и это подтверждается тестами:

Математика. 100% в тесте AIME (против 52,2% у Grok 3).
Программирование. 72–75% в SWE-Bench (улучшение по сравнению с предыдущими моделями xAI, с удвоенным контекстным окном до 256k токенов против 131k у Grok 3).
Мультимодальные задачи. 15,9% в ARC-AGI v2 (почти вдвое выше, чем у конкурентов, с улучшенной поддержкой видения и голоса по сравнению с Grok 3).
Рассуждения. 87% в GPQA (против 75,4% у Grok 3) и 25,4% в Humanity’s Last Exam без инструментов (с Heavy-версией до 44,4% с инструментами).

По данным Artificial Analysis, который предоставляет независимую оценку разных ИИ-моделей, Grok 4 уступает только GPT-5. Но отзывы пользователей варьируются. Одни жалуются на слабые возможности в написании кода и нестабильное качество текста. Другие — на политическую предвзятость и влияние Илона Маска на ответы модели.

Что точно изменилось: новая модель научилась использовать инструменты. Grok 4 анализирует промпт пользователя и сам решает, когда запускать поиск в интернете или включать «режим исследования». Так модель может давать более полезные ответы.

Также в новом обновлении появился Grok 4 Heavy. По сути, это ИИ-ассистент для академиков и исследователей. Он использует нескольких ИИ-агентов, чтобы находить решения для сложных задач и проводить несколько исследований одновременно.

Также среди новых функций ― поддержка комьютерного зрения. Можно направить камеру на объект и получить анализ прямо в голосовом чате. В чате увеличены контекстные окна: у Grok 4 — до 128 000 токенов, у Grok 4 Heavy — до 256 000.

Стоимость: пользоваться чатом можно бесплатно. SuperGrok за 30 долларов в месяц включает Grok 4, Grok 3, голосовые и визуальные функции. SuperGrok Heavy стоит 300 долларов в месяц и даёт доступ к расширенному окну и ранним функциям.

Функции

Deep Search. Позволяет Grok проводить поэтапный поиск в Интернете и анализировать информацию более глубоко. Так он может точнее отвечать на запросы и совершать меньше ошибок.
Deeper Search. Еще более подробное исследование.
Think. Режим Think позволяет Grok дольше обдумывать ответ, повышая глубину и точность ответов на сложные запросы.
Voice mode. Эта функция доступна только в приложениях Grok для iOS и Android. Она позволяет пользователям взаимодействовать с Grok с помощью голоса. Так моделью можно пользоваться на ходу или во время вождения.
Edit image. Позволяет Grok анализировать и редактировать загруженные изображения.
Fresh news. Дает краткий обзор последних новостей.

Когда использовать

Работа с контентом и соцсетями. Специальный режим поиска в соцсети X помогает находить и анализировать материалы именно там, что полезно, если вы работаете в SMM. А поскольку модель обучалась на данных X, её можно использовать, чтобы автоматизировать маркетинг и создание контента ― стиль получается более естественным.
Исследования. Есть несколько разных режимов, которые позволяют искать и анализировать информацию более глубоко.
Поддержка клиентов. Стиль общения у Grok более естесственный, чем у некоторых других моделей, например, Gemini, что полезно для сервисов поддержки.

Слабые стороны Grok

Влияние Маска. В ответах иногда просматриваются взгляды Илона Маска. Это может приводить к искажению фактов.
Ограниченная мультимодальность. Кодинг у Grok слабее, чем у конкурентов. Для изображений лучше использовать отдельные модели.
Цена. Подписка стоит от 30 до 300 долларов в месяц — выше среднего по рынку. Оплатить подписку напрямую из России нельзя.
Конфиденциальность. Данные переписок не публикуются, но они всё равно обрабатываются по правилам xAI, поэтому делиться конфиденциальной информацией стоит с осторожностью.

Скорость

Grok 3 работает быстро, его отклик сопоставим с другими ведущими моделями. Но при высокой нагрузке или сложных задачах, например, в режиме DeepSearch возможны задержки. Поиск в интернете обычно работает хорошо, но скорость зависит от сложности запроса и нагрузки на сервер.

Точность

Модель старается быть точной: использует веб-данные в реальном времени и и сверяет информацию с разными источниками. Однако ошибки возможны. Иногда Grok выдаёт устаревшие данные, поэтому важную информацию лучше перепроверять.

Надёжность

Grok может отражать взгляды Илона Маска, особенно по политическим и остросоциальным вопросам.

ChatGPT-5

GPT-5 — это новая версия большой языковой модели OpenAI, выпущенная в августе 2025 года. У GPT-5 три компонента:

стандартная модель для обычных запросов,
GPT-5 Thinking для сложных задач, где нужно более глубокое рассуждение,
маршрутизатор, который автоматически выбирает нужный режим во время диалога.

Такой подход позволяет не тратить ресурсы на мышление там, где это не нужно и сохранять баланс между скоростью, стоимостью и стабильностью работы.

Доступ к GPT-5 есть у всех пользователей ChatGPT. Подписка Plus даёт больше лимитов, а Pro — неограниченное использование и доступ к версии GPT-5 Pro с расширенными возможностями рассуждения. В тарифах Team, Enterprise и Education тоже предусмотрены более высокие лимиты для работы в организациях.

OpenAI выделила три ключевых направления улучшений:

Письмо. GPT-5 лучше помогает превращать идеи в связный текст, добавляет больше обдуманных продолжений и реже «поддакивает» пользователю.
Программирование. Модель показывает заметный рост в генерации сложных фронтенд-проектов и отладке крупных репозиториев.
Здравоохранение. GPT-5 умеет задавать уточняющие вопросы, выявлять возможные проблемы и выдавать информацию по медицинским критериям. В тесте HealthBench Hard она показала результат 46,2%, что стало рекордом среди всех моделей OpenAI.

Производительность GPT-5 заметно выросла и подтверждается тестами:

Математика. 94,6% в тесте AIME 2025 без использования инструментов.
Программирование. 74,9% в SWE-bench Verified и 88% в Aider Polyglot.
Мультимодальные задачи. 84,2% в тесте MMMU.

В тестах GPT-5 показал рекордные результаты для OpenAI, но в реальной жизни качество всё равно может отличаться.

Несмотря на то, что компания внедрила много улучшений, многие пользователи остались недовольны. Сильно изменился стиль общения модели ― и это стало разочарованием. Многие также отрицательно оценили качество работы модели: по их мнению, ответы стали короче, а не лучше.

Функции

Глубокое исследование. Модель поэтапно ищет ответ на вопрос и перепроверяет источники, чтобы собрать точный и цельный ответ.
Думай дольше. Для сложных задач GPT-5 может выделять больше времени на рассуждения, чтобы повысить качество ответа.
Холст. Встроенное рабочее пространство для текстов: здесь можно править черновики, редактировать и запускать модель заново без потери контекста.
Генерация изображений. Из текста можно создавать картинки, а также редактировать изображения.
Учеба и обучение. Объясняет понятий, придумывает задачи и тесты, чтобы закрепить материал, а не просто выполняет работу за пользователей.
Веб-поиск. Модель умеет искать в реальном времени и давать актуальную информацию.
Голос. Поддерживает голосовой ввод и может отвечать устно.

Когда использовать

Создание контента и маркетинг. GPT-5 лучше улавливает стиль и тон, тексты получаются более естественными и без лишних ошибок.
Брейнсторминг и генерация идей. Модель лучше строит логические цепочки и предлагает больше разнообразных решений.
Анализ данных и исследования. Поддержка длинного контекста (до 256k токенов) позволяет работать с большими документами.
Визуальные задачи. GPT-5 умеет анализировать изображения, схемы и интерфейсы с меньшим числом ошибок.
Поддержка клиентов. Позволяет создать ассистента или бота в Telegram и настроить стиль общения под конкретный сервис.

Чтобы узнать больше о том, как автоматизировать работу с ChatGPT, читайте гайд в нашем блоге.

Слабые стороны

ChatGPT не лучший вариант для написания кода с нуля или дебаггинга. Его можно использовать как помощника, но иногда он пропускает ошибки или добавляет новые.

Скорость

ChatGPT работает быстро, но при высокой нагрузке возможны задержки. Генерация изображений может занимать от 1 до 10 минут, в зависимости от спроса.

Точность

Модель обычно даёт точные ответы и умеет обращаться к Интернету для поиска информации. Однако факты нужно проверять: например, при запросе списка литературы половина книг часто оказывается вымышленной.

Надежность

Даже после обновлений модель все еще часто чрезмерно соглашается и дает положительные отзывы даже на ошибочные идеи. Это заставляет сомневаться в надежности системы, особенно при использовании в консалтинге, бизнесе или психотерапии.

Некоторые исследователи также говорят о политических искажениях системы: ChatGPT выражает левые или либеральные взгляды на остросоциальные вопросы.

Claude 4.1 Opus

Claude Opus 4.1 — самая современная языковая модель Anthropic, доступная публично на август 2025 года. Пользователи могут работать с ней через Claude Code, API, Amazon Bedrock или Google Vertex AI.

Модель построена на архитектуре трансформера. Она способна обрабатывать до 200 000 входных токенов и выдавать до 32 000 токенов на выходе, что позволяет работать с документами или большими наборами данных без потери контекста.

Главное новшество Opus 4.1 — «гибридное мышление». Модель умеет быстро отвечать на простые вопросы, но при сложных задачах может тратить больше времени на многоэтапный анализ.

Сильная сторона модели ― написание кода. Claude показал 74,5% в тесте SWE-bench Verified, улучшив рефакторинг нескольких файлов и отладку больших репозиториев. Модель точно находит нужные исправления и не вносит лишних изменений, что делает её удобной для совместной работы с кодом и обслуживания сложного ПО.

Помимо программирования, Opus 4.1 может:

Синтезировать информацию из больших наборов данных, таких как базы патентов или академические исследования.
Генерировать более структурированный и естественный текст, чем предыдущие версии.
Поддерживать высокий уровень безопасности: 98,76% запросов, нарушающих правила, она отклоняет корректно. Имеет рейтинг AI Safety Level 3 (ASL-3).

Стоимость: Цены остались такими же, как у предыдущей версии Opus 4, от $17 в месяц.

Функции

У Claude Opus 4.1 нет большого разнообразия режимов.

Extended Thinking похожа на Deep Research. Она позволяет модели дольше обдумывать сложные задачи и давать более продуманные ответы.
Claude Artifacts. По сути, это не режим, а функция: возможность просматривать результаты генерации модели в отдельном окне. Это полезно при создании проектов или работе с большими данными.
Стиль общения. В интерфейсе можно переключить стиль общения: обычный, лаконичный или пояснительный.

Модель умеет искать информацию не только в интернете, но и в таких сервисах, как Google Drive, Gmail, Календарь и GitHub, что делает её удобным инструментом для ИТ-специалистов.

Когда использовать Claude Opus 4.1

Claude Opus 4.1 особенно полезна в следующих сценариях:

Разработка программного обеспечения. Модель помогает при крупномасштабном рефакторинге кода, отладке больших репозиториев и автоматизации рабочих процессов.
Исследования и анализ. Claude справляется с обработкой длинных академических статей, юридических документов и больших наборов данных в рамках одной сессии.

Слабые стороны

Отсутствие генерации изображений. Сосредоточен на тексте и коде, без встроенных инструментов для создания визуальных элементов.
Более медленное расширенное мышление. Модель думает дольше, чем другие сервисы.
Ограниченный бесплатный доступ. Новая модель только для платных пользователей Claude Pro, Max, Team и Enterprise или через API.

Скорость

Сопоставима с другими моделями.

Точность

Opus 4.1 показывает высокие результаты в тестах по написанию кода. Он также пользуется поддержкой сообщества, многие считают его лучшим помощником в кодировании. Anthropic утверждает, что Claude Opus 4.1 повышает точность программной инженерии до 74,5%.

Надежность

Модель хорошо справляется с задачами, где нужно мыслить, рассуждать и анализировать большое количество данных. Но, как и любая модель, иногда она может совершать ошибки или галлюцинировать.

Gemini: обзор

Gemini — это мультимодальная модель искусственного интеллекта, разработанная Google DeepMind. Она пришла на смену предыдущим моделям, таким как LaMDA и PaLM 2, и доступна в нескольких вариантах, которые различаются по производительности и стоимости.

На лето 2025 года ведущими публичными версиями являются Gemini 2.5 Pro и Gemini 2.5 Flash, обе с контекстным окном 1 миллион токенов. Такая емкость позволяет обрабатывать за одну сессию примерно один час видео без звука, 11 часов аудио или около 700 000 слов. Эти модели самые быстрые и экономически эффективные у DeepMind.

Gemini работает как автономный чат-бот и как встроенный помощник во всех продуктах Google. Он интегрирован в Google Workspace, включая Gmail, Docs и Sheets, где может:

Составлять черновики и резюмировать тексты
Генерировать контент по запросу
Помогать планировать задачи, просто задавая дату и время

На поддерживаемых устройствах Android Gemini заменяет Google Assistant, выступая в роли основного интерфейса ИИ.

Функции

Deep Research. Модель поэтапно ищет ответ на вопрос, перепроверяет источники и собирает точный и полный ответ.
Canvas. Это встроенное рабочее пространство, где вы можете редактировать текст, работать над черновиками и запускать модель заново, не теряя контекста.
Create images. Эта функция позволяет создавать изображения по текстовому описанию. Изображения генерирует модель Imagen 3.
Guided learning. Gemini не просто выполняет задания, а объясняет понятия, придумывает задачи и тесты для закрепления материала и помогает пользователю учиться.
Add files. Позволяет загружать файлы, чтобы модель могла анализировать их содержимое и работать с предоставленной информацией.

Когда использовать

Работа с кодом. Модель помогает писать и рефакторить код, интегрируется с DevOps-сценариями и агентами для автоматизации разработки.
Анализ данных и исследования. Подходит для обработки больших массивов информации и разных данных: текста, таблиц, изображений, видео.
Визуальные задачи. Gemini умеет анализировать и создавать схемы, диаграммы и инфографику.
Автоматизация и агенты. Используется в GitHub Copilot, CLI и других инструментах для запуска автономных рабочих процессов.
Быстрый поиск информации. Вариант Flash с подключением к интернету даёт быстрые ответы с учётом свежей информации.

Недостатки

Пользователи отмечают, что Gemini иногда предоставляет неточную информацию. Например, при создании списков литературы модель может включать несуществующие книги. Также высказываются опасения по поводу предвзятости результатов, особенно при генерации изображений, что ранее приводило к временному ограничению этой функции Google.

Другой минус — время отклика. На простые запросы Gemini может отвечать дольше, чем другие модели. Ещё одной особенностью является сильная зависимость от экосистемы Google. Для пользователей, предпочитающих сторонние платформы, это может быть ограничением, так как интеграция с внешними сервисами пока ограничена.

Скорость

В целом Gemini работает быстро и эффективно. Однако производительность может меняться в зависимости от нагрузки:

Время отклика на простые задачи иногда увеличивается.
Генерация изображений и мультимедийного контента может задерживаться в периоды высокого спроса.

Точность

Gemini обычно точен и умеет получать актуальную информацию через Интернет. Он разработан так, чтобы давать разные точки зрения на субъективные вопросы и включает функцию «двойной проверки», которая использует Google Search для оценки достоверности.

Тем не менее, проверка фактов всё ещё необходима, так как модель может давать неточные ответы.

Что в итоге

Новейшие модели ИИ — GPT-5, Grok 4, Claude Opus 4.1 и Gemini 2.5 — показывают, что все основные игроки работают над тем, чтобы сделать свои модели более мультимодальными и мощными.

Однако каждая из них имеет свои особенности:

ChatGPT остается передовой универсальной моделью с мощными мультимодальными возможностями.
Gemini лучше всего работает с другими инструментами из экосистемы Google.
Grok лучше всего подходит для исследований, а еще маркетинга в социальных сетях.
Claude превосходит другие модели в написании кода.

Тесты показывают, что все они совершенствуются. Но для бизнеса важно учитывать не кто лидирует в рейтингах, а какой ИИ подходит для конкретного рабочего процесса и задач.

На платформе Альбато вы можете настроить автоматизации для продаж, маркетинга и управления проектами с каждым из этих сервисов.

Попробуйте сейчас

Читать дальше:

08.09.2025

ChatGPT, Claude AI, gemini, grok

Просмотры: 1695 Albato

Предыдущая запись:
Интегрируйте Битрикс24 и Adesk, чтобы автоматизировать управленческий учет Следующая запись:
Как подключить Новофон (ранее Zadarma) к Альбато

Поделиться в соц. сетях

Grok, ChatGPT, Gemini, Claude: Обзор последних обновлений популярных чатботов

Grok 4

Функции

Когда использовать

Слабые стороны Grok

Скорость

Точность

Надёжность

ChatGPT-5

Функции

Когда использовать

Слабые стороны

Скорость

Точность

Надежность

Claude 4.1 Opus

Функции

Когда использовать Claude Opus 4.1

Слабые стороны

Скорость

Точность

Надежность

Gemini: обзор

Функции

Когда использовать

Недостатки

Скорость

Точность

Что в итоге

Leave a Reply Cancel reply