Новости нашего ИТ логотип
Подписаться
Опубликовано

GEPA вместо RL: рефлексивная эволюция промптов

Автор

GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением #java Большие языковые модели (LLM) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах. Чтобы проверить эту гипотезу, мы представляем GEPA (Genetic-Pareto) — оптимизатор промптов, который системно использует natural language reflection для извлечения высокоуровневых правил из trial-and-error процесса. Для любой AI-системы, содержащей один или несколько промптов LLM, GEPA сэмплирует траектории на уровне системы (например, рассуждения, вызовы инструментов и их выводы) и анализиру

link

avatar
Новости нашего ИТ
12 подписчиков
4738 постов
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Свежие посты