Подписаться
Опубликовано

Benchmark разрушитель LLM'ок: SWE-Bench

Автор
  • Имя
    Новости нашего ИТ
    Telegram

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench #Kubernetes В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей. Содержание • Общая информация о датасете • Стенд для тестирования • Результаты • Заключение

link

Новости нашего ИТ
14 подписчиков
5145 постов
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Свежие посты