Новости нашего ИТ логотип
Подписаться
Опубликовано

Сравнение GPT‑4.1, DeepSeek и Qwen синтез тестов

Автор

Кто сильнее в синтезе тестов? Сравниваем GPT-4.1, DeepSeek, Qwen на своем бенчмарке #java Выбор LLM для синтеза тестов В этом обзоре мы обсудим сравнение различных современных языковых моделей (LLM) на задаче синтеза тестов. Все измерения проводились на внутреннем бенчмарке компании Explyt, который включает в себя как закрытые, так и open source проекты на языках Java и Kotlin, с использованием Spring и без. В качестве метрик используются формальные метрики, например, покрытие строк тестируемого класса/метода, число запускаемых тестов, число компиляционных ошибок, мутационное покрытие, так и LLM-as-judge метрики такие, как сложность/полезность/детальность тестовых сценариев, соответствие тестового метода сценарию на естественном языке и много других. Эксперименты проводились поверх Explyt Test плагина для IntelliJ Idea, к которому подключались разные модели и измерялось качеств

link

avatar
Новости нашего ИТ
12 подписчиков
4804 поста
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Свежие посты