Новости нашего ИТ

Подписаться

Опубликовано: понедельник, 9 июня 2025 г.

Benchmark разрушитель LLM'ок: SWE-Bench

Автор

Имя
Новости нашего ИТ
Telegram
telegram

Новости нашего ИТ

13 подписчиков

5145 постов

Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench #Kubernetes В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей. Содержание • Общая информация о датасете • Стенд для тестирования • Результаты • Заключение

Обсудить в Telegram

Новости нашего ИТ

13 подписчиков

5145 постов

Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Предыдущий пост

Опубликовано: 9 июн. 2025 г.

Одноклассовый энтерпрайз

Одноклассовый энтерпрайз Spring security статья на Habr о парне из Нью-Дели

Следующий пост

Опубликовано: 9 июн. 2025 г.

Книга «Масштабируемые данные» о современных архитектурах данных

Книга «Масштабируемые данные» о современных архитектурах данных, Data Mesh и Data Fabric

Из подборки #ai

Опубликовано: 1 февр. 2026 г.

+1

Регуляторные документы РФ по ИИ в 2026 году

регуляторные документы РФ безопасность ИИ 2026

Опубликовано: 30 янв. 2026 г.

+1

Куда и почему уходят бабки на нейросети

почему компании тратят деньги на нейросети и как это работает

Опубликовано: 30 янв. 2026 г.

+1

An Introduction to Using simple-openai in Java

Как использовать библиотеку simple-openai в Java для интеграции LLM

Опубликовано: 30 янв. 2026 г.

+1

Как AI убьет вашу базу: безопасность в 2026

как AI убьет базу данных безопасность 2026

Опубликовано: 29 янв. 2026 г.

+1

Как нейросеть может быть лучшим ассистентом?

как нейросеть стать лучшим ассистентом для работы и автоматизации

Опубликовано: 29 янв. 2026 г.

+1

Open-Source AI фитнес‑тренер: 27 MCP‑инструментов

Open-Source AI фитнес‑тренер: 27 MCP‑инструментов, 3 провайдера, граф упражнений, Docker PWA, код Claude Code

Все посты из подборки →

Свежие посты

Опубликовано: 1 февр. 2026 г.

+1

Model Context Protocol на Go: 100K ops/sec

Model Context Protocol на Go: 100K ops/sec, 10× быстрее Python SDK, multi‑tenancy, security

Опубликовано: 1 февр. 2026 г.

+1

Создать Telegram‑бот погоды за 5 минут Nyagram

Как создать Telegram‑бот погоды за 5 минут на Java с Nyagram и OpenWeatherMap

Опубликовано: 1 февр. 2026 г.

+1

Регуляторные документы РФ по ИИ в 2026 году

регуляторные документы РФ безопасность ИИ 2026

Опубликовано: 31 янв. 2026 г.

+1

Spring Shell 4.0.1 is out!

Spring Shell 4.0.1 выпуск

Опубликовано: 31 янв. 2026 г.

+1

CDC своими руками: Kafka + Debezium в лаборатории

CDC Kafka Debezium домашняя лаборатория PostgreSQL

Опубликовано: 31 янв. 2026 г.

+1

Kafka: обработка ошибок и Dead Letter Queues

Как обработать ошибки в Spring Kafka и использовать Dead Letter Queue

Опубликовано: 31 янв. 2026 г.

+1

Создание Ambilight приложения для Android на Java

Как создать приложение Ambilight для Android на Java

Опубликовано: 31 янв. 2026 г.

+1

Архитектура факторов ранжирования Ozon runtime

архитектура факторов ранжирования в runtime поиска Ozon

Следующие посты →