Блог Getcore

Как изменились требования к серверам для LLM за последние 2 года

Как изменились требования к серверам для LLM за последние 2 года

За последние два года рынок искусственного интеллекта изменился гораздо сильнее, чем за предыдущие пять. Если раньше обучение нейросетей можно было запустить на паре GPU и относительно спокойно масштабировать проект, то сегодня работа с LLM требует совсем другого уровня инфраструктуры.
Главное изменение — рост самих моделей. Они стали больше, «тяжелее» и требовательнее к памяти. И если раньше узким местом считалась вычислительная мощность, то сейчас всё чаще упираются в объём и скорость памяти.

Почему память стала важнее, чем GPU

Ещё в 2023 году стандартом считались видеокарты с 16–24 ГБ памяти. Этого хватало для большинства задач: компьютерного зрения, NLP и даже некоторых языковых моделей.
Сегодня ситуация другая. Для работы с современными LLM:
  • минимальный порог — около 40 ГБ VRAM
  • комфортный уровень — 80 ГБ и выше
  • крупные модели требуют уже 140+ ГБ памяти (H200)
Именно поэтому всё чаще используются решения уровня NVIDIA H100 и H200, рассчитанные на работу с большими моделями и длинным контекстом.

От одного GPU к полноценным серверным системам

Раньше можно было запустить модель на одной видеокарте. Сейчас это скорее исключение.
Современные проекты строятся вокруг серверов с несколькими GPU — чаще всего это 4 или 8 ускорителей в одном узле. Причина проста: модель уже не помещается в память одного устройства, и её приходится «разносить» между несколькими GPU.
Отсюда вытекает ещё одно важное требование — скорость обмена данными. Без неё система просто не даст прироста производительности.

Почему NVLink стал стандартом

Когда GPU начинают работать вместе, между ними постоянно передаются данные. Если связь медленная — система тормозит.
Именно поэтому в современных AI-серверах используется NVLink и NVSwitch — технологии, которые позволяют объединять GPU в единую вычислительную среду.
На практике это означает, что при выборе сервера важно смотреть не только на сами видеокарты, но и на архитектуру платформы.
Например, в проектах с LLM часто применяются серверы уровня:
Они изначально рассчитаны на работу с несколькими GPU и высокоскоростное взаимодействие между ними.

Как изменилась архитектура AI-инфраструктуры

Если раньше инфраструктура могла состоять из одного сервера, то сейчас всё чаще речь идёт о системах более высокого уровня.
Типичная конфигурация включает:
  • GPU-серверы для обучения и инференса
  • систему хранения (датасеты и модели)
  • сеть с высокой пропускной способностью
  • инструменты оркестрации
При росте нагрузки такие системы масштабируются в кластеры. Это особенно актуально для LLM и генеративного ИИ.

Что происходит с GPU в 2026 году

На рынке фактически сформировался новый стандарт:
  • NVIDIA A100 — базовый уровень
  • NVIDIA H100 — основной рабочий инструмент
  • NVIDIA H200 — решение для самых тяжёлых задач
Разница между ними уже не только в скорости, но и в объёме памяти и способности работать с длинным контекстом.

Что это значит для бизнеса

Главный вывод простой: подход к выбору серверов полностью изменился.
Если раньше можно было «взять GPU помощнее и поехать», то сейчас нужно учитывать:
  • объём памяти
  • архитектуру сервера
  • масштабируемость
  • тип задач (обучение или инференс)
Компании, которые продолжают строить инфраструктуру по старым принципам, быстро упираются в ограничения — как по производительности, так и по стоимости.

Вывод

За последние два года требования к серверам для LLM стали значительно выше и сложнее.
Сегодня ключевую роль играют не только GPU, но и:
  • память (VRAM)
  • скорость обмена данными
  • архитектура системы
И именно от этих параметров зависит, сможет ли инфраструктура справляться с современными AI-задачами.