Skip to content

Conversation

@antoshkaxxr
Copy link

No description provided.

@mathamateur
Copy link

Привет! Спасибо, что решили сделать вклад в проект MERA - это очень ценно!

Посмотрел ваш PR, есть несколько методологических вопросов и замечаний по сету:

  1. Нужно добавить в ридми - создание датасета - описание того, как осуществлялся перевод заданий и его валидация.
  2. Добавить в описание, чем датасет отличается от английской версии, например вот этой в контексте наполнения каждого из математических доменов. Ваш сет меньше по размеру, чем указанный по ссылке, хотя в вашем есть примеры за 2025 год. Почему так произошло? https://huggingface.co/datasets/gneubig/aime-1983-2024
  3. Замеряли ли вы какие-нибудь модели на вашем сете? Какие получили результаты?
  4. Есть ли у вас обоснование, почему решили 2 шота использовать для оценок? Проводили ли вы эксперименты с другим количеством шотов?
    @antoshkaxxr

@antoshkaxxr
Copy link
Author

Добрый день!

  1. Добавили в раздел "Создание датасета" описание того, как осуществлялся перевод заданий и его валидация.
  2. Мы убрали задачи, в условиях которых были изображения, геометрические чертежи, необходимые для понимания контекста самой задачи (только текстовые составляющие, без мультимодальностей).
  3. Проводили тестирование на модели deepseek-reasoner. Модель успешно справилась с 70% задач из тестового набора. В остальных случаях модель выдавала ошибочный числовой ответ либо запускала чрезмерно длинную цепочку рассуждений, не доходя до финального ответа.
  4. В целом, 2 шота обеспечивали достаточный контекст для понимания формата задач AIME, структуры ожидаемого ответа и уровня сложности задач. С другим количеством шотов не экспериментировали, но если это требуется - можем сделать.
    @mathamateur

@mathamateur
Copy link

Спасибо! По 1-3 тогда все ок, больше вопросов нет. По 4 можете провести эксперименты с 0 и 1 шотом и написать, что получится? @antoshkaxxr

@antoshkaxxr
Copy link
Author

Получилось, что при 0 шотов модель не понимает формат, ответы случайны.
1 шот не покрывает вариативность инструкций, модель залипает на контексте первого вопроса. Также один пример не помогает обобщить шаблон поведения на разные математические домены.
2 шота дают устойчивое поведение из-за разных формулировок инструкции, разных математических типов задач и уточнения шаблона вывода.
@mathamateur

@artemorloff artemorloff added the new_dataset The dataset for the new release label Nov 10, 2025
@mathamateur
Copy link

mathamateur commented Nov 10, 2025

Спасибо за ответы @antoshkaxxr ! А можете привести прямо числа метрик для замеров с 0 и 1 шотом, чтобы можно было явно сослаться на это в случае вопросов со стороны сообщества или ревьюеров будущей научной статьи.

С моей стороны тогда на данный момент ОК, прошу также @artemorloff провалидировать.

@mathamateur mathamateur added PUBLIC Публичный датасет. Вопросы и ответы загружены на HF и доступны пользователям. code: OK Задача корректно реализована, прогон запускается и выдает метрики. docs: OK Документация и метаинформация по сету написаны корректно. dataset: OK Формат и содержание сета корректны labels Nov 10, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

code: OK Задача корректно реализована, прогон запускается и выдает метрики. dataset: OK Формат и содержание сета корректны docs: OK Документация и метаинформация по сету написаны корректно. new_dataset The dataset for the new release PUBLIC Публичный датасет. Вопросы и ответы загружены на HF и доступны пользователям.

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants