На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Царьград

7 162 подписчика

Свежие комментарии

  • Leon D
    Военный присягает не руководству, а России. Если же он присягает личности, то еще не известно, чем это обернется.Рамзан Кадыров: П...
  • Leon D
    Один человек, это еще не "отставки", а одна отставка.Громкие отставки ...
  • Владимир Тимошков
    Лучше до 10 и побольше бабьяУкраина может сни...

"Последний экзамен человечества" пройден: новый ИИ превзошёл все ожидания

OpenAI Deep Research показал рекордный результат в сложнейшем тесте для нейросетей "Последний экзамен человечества".

Около двух недель назад эксперты представили тест Humanity's Last Exam — "Последний экзамен человечества". Предназначен он для оценки передовых нейросетей. При этом тест очень сложный — далеко не каждый человек сможет просто понять некоторые вопросы на знания и рассуждения, не говоря уже о том, чтобы ответить.

Сначала лидером среди нейросетей стала модель DeepSeek R1 — она ответила правильно на 9,4% вопросов. Но довольно быстро её обогнали модели OpenAI o3-mini (10,5%) и o3-mini-high (13 %). Но последняя, хоть и оказалась мощнее, работает всё таки медленнее.

Но победителем стал ИИ OpenAI Deep Research, который менее, чем за 10 дней нашёл правильные ответы на 26,6% вопросов и заданий.

Правда, у Deep Research есть особенность, отличающая его от других ИИ — нейросеть может искать информацию, а не просто рассуждать, как другие "конкурсанты". И в случае с Humanity's Last Exam эта возможность имеет критическое значение, так как тест проверяет "знания" нейросетей. 

Сам же OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, причём гораздо быстрее человека, у которого бы на это ушло бы несколько часов, пишет 3DNews.

 

Ссылка на первоисточник
наверх