Как изменились требования к серверам для LLM за последние 2 года
Как изменились требования к серверам для LLM за последние 2 года
За последние два года рынок искусственного интеллекта изменился гораздо сильнее, чем за предыдущие пять. Если раньше обучение нейросетей можно было запустить на паре GPU и относительно спокойно масштабировать проект, то сегодня работа с LLM требует совсем другого уровня инфраструктуры.
Главное изменение — рост самих моделей. Они стали больше, «тяжелее» и требовательнее к памяти. И если раньше узким местом считалась вычислительная мощность, то сейчас всё чаще упираются в объём и скорость памяти.
Почему память стала важнее, чем GPU
Ещё в 2023 году стандартом считались видеокарты с 16–24 ГБ памяти. Этого хватало для большинства задач: компьютерного зрения, NLP и даже некоторых языковых моделей.
Сегодня ситуация другая. Для работы с современными LLM:
минимальный порог — около 40 ГБ VRAM
комфортный уровень — 80 ГБ и выше
крупные модели требуют уже 140+ ГБ памяти (H200)
Именно поэтому всё чаще используются решения уровня NVIDIA H100 и H200, рассчитанные на работу с большими моделями и длинным контекстом.
От одного GPU к полноценным серверным системам
Раньше можно было запустить модель на одной видеокарте. Сейчас это скорее исключение.
Современные проекты строятся вокруг серверов с несколькими GPU — чаще всего это 4 или 8 ускорителей в одном узле. Причина проста: модель уже не помещается в память одного устройства, и её приходится «разносить» между несколькими GPU.
Отсюда вытекает ещё одно важное требование — скорость обмена данными. Без неё система просто не даст прироста производительности.
Почему NVLink стал стандартом
Когда GPU начинают работать вместе, между ними постоянно передаются данные. Если связь медленная — система тормозит.
Именно поэтому в современных AI-серверах используется NVLink и NVSwitch — технологии, которые позволяют объединять GPU в единую вычислительную среду.
На практике это означает, что при выборе сервера важно смотреть не только на сами видеокарты, но и на архитектуру платформы.
Например, в проектах с LLM часто применяются серверы уровня:
Разница между ними уже не только в скорости, но и в объёме памяти и способности работать с длинным контекстом.
Что это значит для бизнеса
Главный вывод простой: подход к выбору серверов полностью изменился.
Если раньше можно было «взять GPU помощнее и поехать», то сейчас нужно учитывать:
объём памяти
архитектуру сервера
масштабируемость
тип задач (обучение или инференс)
Компании, которые продолжают строить инфраструктуру по старым принципам, быстро упираются в ограничения — как по производительности, так и по стоимости.
Вывод
За последние два года требования к серверам для LLM стали значительно выше и сложнее.
Сегодня ключевую роль играют не только GPU, но и:
память (VRAM)
скорость обмена данными
архитектура системы
И именно от этих параметров зависит, сможет ли инфраструктура справляться с современными AI-задачами.