- Опубликовано
Как я делал свою языковую модель: эксперимент
- Автор
- Имя
- Новости нашего ИТ
- Telegram
- Новости нашего ИТ14 подписчиков5145 постовДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Как я делал свою языковую модель: история эксперимента
#java
Уже больше года назад у меня зародилась идея создать свою архитектуру языковой модели. Традиционные модели, «думающие» на уровне токенов мне решительно не нравились. Колоссальный вычислительный бюджет на то, чтобы просто предсказать один токен. Логичным мне казалось оторвать мышление модели от токенов, перенеся его в латентное пространство. Примерно полгода назад я начал первые практические эксперименты и сейчас получил первые практические результаты. Поскольку уровень подготовки читателей очень сильно различается, в статье не будет глубоких технических разборов, а скорее история эксперимента. Для того, чтобы реализовать эту идею логично было разделить модель на три части:
Новости нашего ИТ
14 подписчиков
5145 постов
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Из подборки #ai
- Опубликовано
Kafka
+1
Регуляторные документы РФ по ИИ в 2026 году
регуляторные документы РФ безопасность ИИ 2026
- Опубликовано
#it_news
+1
Куда и почему уходят бабки на нейросети
почему компании тратят деньги на нейросети и как это работает
- Опубликовано
#java
+1
An Introduction to Using simple-openai in Java
Как использовать библиотеку simple-openai в Java для интеграции LLM
- Опубликовано
Как AI убьет вашу базу: безопасность в 2026
как AI убьет базу данных безопасность 2026
- Опубликовано
#docker
+1
Как нейросеть может быть лучшим ассистентом?
как нейросеть стать лучшим ассистентом для работы и автоматизации
- Опубликовано
#docker
+1
Open-Source AI фитнес‑тренер: 27 MCP‑инструментов
Open-Source AI фитнес‑тренер: 27 MCP‑инструментов, 3 провайдера, граф упражнений, Docker PWA, код Claude Code
Свежие посты
- Опубликовано
#devops
+1
Model Context Protocol на Go: 100K ops/sec
Model Context Protocol на Go: 100K ops/sec, 10× быстрее Python SDK, multi‑tenancy, security
- Опубликовано
#java
+1
Создать Telegram‑бот погоды за 5 минут Nyagram
Как создать Telegram‑бот погоды за 5 минут на Java с Nyagram и OpenWeatherMap
- Опубликовано
Kafka
+1
Регуляторные документы РФ по ИИ в 2026 году
регуляторные документы РФ безопасность ИИ 2026
- Опубликовано
#java
+1
Spring Shell 4.0.1 is out!
Spring Shell 4.0.1 выпуск
- Опубликовано
Kafka
+1
CDC своими руками: Kafka + Debezium в лаборатории
CDC Kafka Debezium домашняя лаборатория PostgreSQL
- Опубликовано
Kafka
+1
Kafka: обработка ошибок и Dead Letter Queues
Как обработать ошибки в Spring Kafka и использовать Dead Letter Queue
- Опубликовано
#java
+1
Создание Ambilight приложения для Android на Java
Как создать приложение Ambilight для Android на Java
- Опубликовано
#java
+1
Архитектура факторов ранжирования Ozon runtime
архитектура факторов ранжирования в runtime поиска Ozon