- Опубликовано
Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы
- Автор

- Имя
- Новости нашего ИТ
- Telegram
Новости нашего ИТ12 подписчиков4804 постаДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы
#Spring kafka
Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву.
Новости нашего ИТ
12 подписчиков
4804 поста
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Из подборки #Spring
- Опубликовано
Kafka
+1
Удобная синхронизация настроек Kafka
Удобная синхронизация настроек Kafka в кластере
- Опубликовано
#java
+1
Spring Data 2025.1.2 и 2025.0.8 released
Spring Data 2025.1.2 и 2025.0.8: релиз и новые возможности
- Опубликовано
От поэзии к нейробиологии: проверка метафор любви
Научная проверка метафор любви в поэзии и нейробиологии
- Опубликовано
#ai
+1
Spring AI Agentic Patterns Part 2 AskUserQuestion
Spring AI Agentic Patterns part 2: AskUserQuestionTool – agents clarify before acting
- Опубликовано
#java
+1
Подкаст Spring: измеряем всё с Micrometer
Подкаст Spring: как измерять всё с Micrometer от Джонатана Иванова
- Опубликовано
#java
+1
Spring Framework 7.0.3 release
Spring Framework 7.0.3 release news
Свежие посты
- Опубликовано
Kafka
+1
Удобная синхронизация настроек Kafka
Удобная синхронизация настроек Kafka в кластере
- Опубликовано
#java
+1
Spring Data 2025.1.2 и 2025.0.8 released
Spring Data 2025.1.2 и 2025.0.8: релиз и новые возможности
- Опубликовано
#devops
+1
How Ansible does the real work in hyperautomation
Как Ansible реализует реальную работу в гиперавтоматизации?
- Опубликовано
OpenMedata в облаке: DataGovernance обзор Collate 1
OpenMedata в облаке Data Governance обзор Collate часть 1
- Опубликовано
#docker
+1
Python без Python: как запускать код где угодно
как запускать Python код где угодно без установки
- Опубликовано
#docker
+1
Хакатон Норникеля: YOLO, 2 место
Хакатон Норникеля YOLO 2 место как выиграть
- Опубликовано
#devops
+1
Nginx с человеческим лицом: обзор Nginx Proxy Manager
обзор Nginx Proxy Manager для новичков DevOps
- Опубликовано
От поэзии к нейробиологии: проверка метафор любви
Научная проверка метафор любви в поэзии и нейробиологии