ruAIME dataset #15

antoshkaxxr · 2025-09-23T12:47:06Z

No description provided.

mathamateur · 2025-10-30T12:27:55Z

Привет! Спасибо, что решили сделать вклад в проект MERA - это очень ценно!

Посмотрел ваш PR, есть несколько методологических вопросов и замечаний по сету:

Нужно добавить в ридми - создание датасета - описание того, как осуществлялся перевод заданий и его валидация.
Добавить в описание, чем датасет отличается от английской версии, например вот этой в контексте наполнения каждого из математических доменов. Ваш сет меньше по размеру, чем указанный по ссылке, хотя в вашем есть примеры за 2025 год. Почему так произошло? https://huggingface.co/datasets/gneubig/aime-1983-2024
Замеряли ли вы какие-нибудь модели на вашем сете? Какие получили результаты?
Есть ли у вас обоснование, почему решили 2 шота использовать для оценок? Проводили ли вы эксперименты с другим количеством шотов?
@antoshkaxxr

antoshkaxxr · 2025-11-05T11:20:13Z

Добрый день!

Добавили в раздел "Создание датасета" описание того, как осуществлялся перевод заданий и его валидация.
Мы убрали задачи, в условиях которых были изображения, геометрические чертежи, необходимые для понимания контекста самой задачи (только текстовые составляющие, без мультимодальностей).
Проводили тестирование на модели deepseek-reasoner. Модель успешно справилась с 70% задач из тестового набора. В остальных случаях модель выдавала ошибочный числовой ответ либо запускала чрезмерно длинную цепочку рассуждений, не доходя до финального ответа.
В целом, 2 шота обеспечивали достаточный контекст для понимания формата задач AIME, структуры ожидаемого ответа и уровня сложности задач. С другим количеством шотов не экспериментировали, но если это требуется - можем сделать.
@mathamateur

mathamateur · 2025-11-05T13:12:46Z

Спасибо! По 1-3 тогда все ок, больше вопросов нет. По 4 можете провести эксперименты с 0 и 1 шотом и написать, что получится? @antoshkaxxr

antoshkaxxr · 2025-11-09T08:30:55Z

Получилось, что при 0 шотов модель не понимает формат, ответы случайны.
1 шот не покрывает вариативность инструкций, модель залипает на контексте первого вопроса. Также один пример не помогает обобщить шаблон поведения на разные математические домены.
2 шота дают устойчивое поведение из-за разных формулировок инструкции, разных математических типов задач и уточнения шаблона вывода.
@mathamateur

mathamateur · 2025-11-10T14:43:04Z

Спасибо за ответы @antoshkaxxr ! А можете привести прямо числа метрик для замеров с 0 и 1 шотом, чтобы можно было явно сослаться на это в случае вопросов со стороны сообщества или ревьюеров будущей научной статьи.

С моей стороны тогда на данный момент ОК, прошу также @artemorloff провалидировать.

antoshkaxxr added 2 commits September 23, 2025 17:46

ruAIME dataset

3f2302c

task added

5a920e0

updated readme

edf8f1f

artemorloff requested review from artemorloff and mathamateur November 10, 2025 11:58

artemorloff added the new_dataset The dataset for the new release label Nov 10, 2025

artemorloff assigned mathamateur Nov 10, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

ruAIME dataset #15

ruAIME dataset #15

Uh oh!

antoshkaxxr commented Sep 23, 2025

Uh oh!

mathamateur commented Oct 30, 2025

Uh oh!

antoshkaxxr commented Nov 5, 2025

Uh oh!

mathamateur commented Nov 5, 2025

Uh oh!

antoshkaxxr commented Nov 9, 2025

Uh oh!

mathamateur commented Nov 10, 2025 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

ruAIME dataset #15

Are you sure you want to change the base?

ruAIME dataset #15

Uh oh!

Conversation

antoshkaxxr commented Sep 23, 2025

Uh oh!

mathamateur commented Oct 30, 2025

Uh oh!

antoshkaxxr commented Nov 5, 2025

Uh oh!

mathamateur commented Nov 5, 2025

Uh oh!

antoshkaxxr commented Nov 9, 2025

Uh oh!

mathamateur commented Nov 10, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

mathamateur commented Nov 10, 2025 •

edited

Loading