Новый Grok 4 от xAI

Илон Маск, известный своими амбициозными проектами, снова оказался в центре внимания, представив 9 июля 2025 года новую версию чат-бота Grok 4, разработанного его компанией xAI. Этот ИИ, по словам Маска, превосходит интеллектуальные способности большинства аспирантов по всем дисциплинам одновременно, что делает его одной из самых передовых моделей искусственного интеллекта на сегодняшний день. Презентация, транслировавшаяся в прямом эфире, вызвала широкий резонанс в технологическом сообществе, а результаты тестов Grok 4 подтверждают его выдающиеся возможности. В этой статье мы подробно рассмотрим преимущества Grok 4, его функционал и показатели в тестах, чтобы понять, почему эта модель может стать новым эталоном в области ИИ.

Humanity's Last Exam (нажмите)

 

Превосходство в тестах и бенчмарках

Grok 4 демонстрирует впечатляющие результаты в ряде сложных тестов, которые оценивают способности ИИ в различных областях, включая математику, естественные науки, гуманитарные дисциплины и программирование. Одним из ключевых бенчмарков является тест Humanity’s Last Exam (HLE), включающий тысячи вопросов, составленных краудсорсинговым методом. Без использования дополнительных инструментов Grok 4 набрал 25,4%, что превосходит показатели Google Gemini 2.5 Pro (21,6%) и OpenAI o3 (21%). Однако версия Grok 4 Heavy, использующая мультиагентный подход, подняла планку до 44,4%, значительно опередив Gemini 2.5 Pro с инструментами (26,9%). Этот результат подчеркивает способность Grok 4 эффективно решать сложные междисциплинарные задачи.

Еще один важный тест — ARC-AGI-2, который проверяет способность ИИ распознавать визуальные закономерности. Здесь Grok 4 достиг результата 16,2%, что почти вдвое выше показателя ближайшего конкурента, Claude Opus 4. Такой успех объясняется инновационной архитектурой модели, которая позволяет ей обучаться новым навыкам на основе ограниченного набора данных и применять их в тестовых сценариях.

Кроме того, в тестах GPQA (оценивающем знания на уровне кандидатских диссертаций) Grok 4 показал результат 87–88%, что на 10–12% выше, чем у Gemini 2.5 Pro. В бенчмарке SWE Bench, ориентированном на программирование, модель достигла 72–75%, опередив Claude 4 Opus на 15–20%. Эти показатели подтверждают, что Grok 4 не только универсален, но и обладает высокой точностью в специализированных задачах.

ARC-AGI - сравнение Grok 4 с другими ИИ (кликните)

 

Уникальные возможности Grok 4

Grok 4 выделяется не только высокими результатами в тестах, но и рядом уникальных функций, которые делают его универсальным инструментом для пользователей и разработчиков. Вот основные преимущества модели:

  1. Мультиагентный подход Grok 4 Heavy
    Одной из ключевых инноваций является версия Grok 4 Heavy, в которой несколько ИИ-агентов работают параллельно над одной задачей, сравнивают результаты и выбирают оптимальный ответ. Этот подход, напоминающий работу команды экспертов, значительно повышает точность и надежность ответов, особенно в сложных сценариях. Например, в тесте HLE именно мультиагентная версия обеспечила результат 44,4%, что стало рекордным показателем среди публичных моделей ИИ.
  2. Улучшенные голосовые функции
    Grok 4 получил значительные улучшения в области голосового взаимодействия. Теперь чат-бот способен не только поддерживать диалог с естественной интонацией, но и петь, шептать или менять тон в зависимости от контекста. Это делает взаимодействие с ИИ более живым и эмоционально насыщенным, что особенно важно для интеграции в пользовательские устройства, такие как автомобили Tesla, где Grok 4 начнет использоваться уже на следующей неделе после презентации.
  3. Рассуждение от первых принципов
    По словам Маска, Grok 4 способен решать сложные инженерные задачи, ответы на которые нельзя найти в интернете или книгах. Модель использует подход, основанный на первых принципах, что позволяет ей разбирать проблему на фундаментальные элементы и находить решения даже в новых или нестандартных ситуациях. Это делает Grok 4 перспективным инструментом для научных исследований и инженерных разработок.
  4. Интеграция с платформой X
    Grok 4 активно использует данные из социальной сети X для предоставления актуальной информации в реальном времени. Это дает ему преимущество перед конкурентами, такими как ChatGPT, в обработке текущих событий и трендов. Однако стоит отметить, что при ответах на спорные вопросы Grok 4 может опираться на посты Илона Маска, что вызвало критику за потенциальную предвзятость.
  5. Широкий спектр применения
    Grok 4 демонстрирует выдающиеся способности в генерации текстов различных жанров: от технической документации до креативных текстов и презентаций. Модель способна адаптировать стиль изложения под целевую аудиторию, что делает ее полезной как для профессионалов, так и для обычных пользователей. Кроме того, запланированы дополнительные модули для программирования (август 2025), мультиагентной версии (сентябрь 2025) и генерации видео (октябрь 2025), что расширит функционал модели.

 

Ограничения и вызовы

Несмотря на впечатляющие достижения, Grok 4 не лишен недостатков. Маск отметил, что иногда модели может не хватать здравого смысла, а ее ответы на чувствительные темы могут быть предвзятыми из-за опоры на личные взгляды самого Маска, выраженные в постах на X. Это вызвало критику со стороны пользователей и журналистов, которые указывают на риск формирования необъективных ответов. Кроме того, высокая стоимость подписки на Grok 4 Heavy ($300 в месяц) может ограничить доступ к модели для широкой аудитории.

Ludicrous rate of progress - эволюция Grok

 

Grok 4 от xAI — это значительный шаг вперед в развитии искусственного интеллекта. Сочетание высоких результатов в бенчмарках, мультиагентного подхода, улучшенных голосовых функций и способности к глубокому анализу делает эту модель одной из самых мощных на рынке. Она уже превосходит конкурентов, таких как ChatGPT, Gemini и Claude, в ряде тестов и обещает стать важным инструментом для научных, инженерных и творческих задач. Однако потенциальная предвзятость и высокая стоимость подписки подчеркивают, что xAI предстоит решить ряд вызовов, чтобы Grok 4 стал по-настоящему универсальным решением. Тем не менее, с учетом планов по дальнейшему развитию, таких как интеграция в Tesla и выпуск новых модулей, Grok 4 имеет все шансы стать лидером в области ИИ, оправдывая амбициозные заявления Илона Маска.

Logo

Spartacus_85 [Admin]

Администратор сайта — это специалист, который отвечает за техническую поддержку и бесперебойную работу веб-ресурса.



0 Комментарий(я)

Зарегистрируйтесь чтобы оставить комментарий