Epoch AI анонсировала революционный математический бенчмарк FrontierMath

Epoch AI анонсировала революционный математический бенчмарк FrontierMath, который ставит современные ИИ-модели в затруднительное положение. Согласно данным исследовательской организации, этот набор задач включает сотни сложнейших математических проблем, с которыми даже самые передовые модели, такие как GPT-4o и Claude 3.5 Sonnet, справляются менее чем в 2% случаев.

Задачи FrontierMath охватывают разнообразные математические дисциплины — от вычислительной теории чисел до абстрактной алгебраической геометрии. Эти задачи требуют от людей-математиков часов или даже дней на их решение. Что делает FrontierMath уникальным, так это его конфиденциальность: задачи остаются неопубликованными, чтобы избежать «обучения» ИИ на известных данных и обеспечить настоящую проверку их возможностей.

Хотя ИИ-модели успешно решают более простые задачи, такие как GSM8K, сложные вызовы FrontierMath оказываются им не по зубам. Этот бенчмарк был разработан более чем 60 математиками и рецензирован лауреатами Филдсовской премии. Он предлагает решения, которые проверяются через сложные алгоритмы и требуют значительных вычислительных усилий.

В будущем Epoch AI планирует расширить FrontierMath, добавляя новые задачи для дальнейшего тестирования границ возможностей искусственного интеллекта в математике.

Александр Обносов 14.11.2024 Изображение от Freepik

Курсы валют

Epoch AI анонсировала революционный математический бенчмарк FrontierMath

Главные новости

Актуально

Эксклюзив