- Опубликовано
SWE-MERA: новый бенчмарк для моделей генерации кода
- Автор

- Имя
- Новости нашего ИТ
- Telegram
Новости нашего ИТ12 подписчиков4794 постаДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода
#docker
Всем привет! Пару месяцев Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил MERA CODE — бенчмарк для оценки качества умений написания кода для больших языковых моделей. Инструмент хороший, но есть одна проблема. Все задачи в MERA CODE, как впрочем и в SWE-bench и других бенчмарках подобного назначения , следуют классической парадигме: есть фиксированный обучающий набор данных и, что более важно, фиксированный проверочный набор, которые имеют свойство устаревать. Например, многие из наборов данных для таких бенчмарков собраны из открытых источников типа GitHub. Большие языковые модели, которые мы пытаемся оценивать нашим набором задач, также учатся на GitHub и рано или поздно (и в наше время скорее рано) они во время обучения увидят данные из проверочного множ
Предыдущий пост
- Опубликовано
настройка netty socketio для java приложений
Из подборки #ai
- Опубликовано
Хакатон Норникеля: YOLO, 2 место
- Опубликовано
Spring AI Agentic Patterns Part 2 AskUserQuestion
- Опубликовано
Roo Code: как использовать DeepSeek для тестирования
- Опубликовано
Нейросети для задач: сравнение Кэмп и ChatGPT
- Опубликовано
Я год не пишу код вручную и не вернусь
- Опубликовано
ИИ-статьи: спасение автора или смерть интернета
Свежие посты
- Опубликовано
Удобная синхронизация настроек Kafka
- Опубликовано
Spring Data 2025.1.2 и 2025.0.8 released
- Опубликовано
How Ansible does the real work in hyperautomation
- Опубликовано
OpenMedata в облаке: DataGovernance обзор Collate 1
- Опубликовано
Python без Python: как запускать код где угодно
- Опубликовано
Хакатон Норникеля: YOLO, 2 место
- Опубликовано
Nginx с человеческим лицом: обзор Nginx Proxy Manager
- Опубликовано