Блог Getcore

Переход на жидкостное охлаждение: почему для AI-инфраструктуры это всё чаще не опция, а необходимость

Рынок AI-инфраструктуры сейчас движется сразу в двух направлениях. С одной стороны, серверы становятся всё плотнее и горячее, поэтому дата-центры всё активнее переходят на жидкостное охлаждение. С другой — появляются новые программные методы повышения эффективности, которые уменьшают нагрузку на память и ускоряют инференс без замены железа. Один из самых заметных примеров 2026 года — TurboQuant от Google Research, технология экстремального сжатия для KV cache и vector search. Но именно здесь важно не перепутать причину и следствие: такие методы делают AI-системы эффективнее, но не отменяют сам тренд на liquid cooling в высокоплотной GPU-инфраструктуре.

Что меняет TurboQuant и почему о нём вообще заговорили

TurboQuant — это не система охлаждения и не серверная архитектура, а софтверный метод сжатия данных, используемых в inference. Google Research описывает его как compression method, который позволяет сильно уменьшать размер представления без потери точности и подходит для KV cache compression и vector search. В основе лежат два этапа: сначала основная часть информации сжимается через PolarQuant, затем остаточная ошибка компенсируется через QJL. В результате TurboQuant нацелен прежде всего на один из главных bottleneck’ов LLM-инференса — рост KV cache при длинном контексте и высокой нагрузке.

Это важный сдвиг, потому что у современных LLM часть ограничений связана не только с “чистой” вычислительной мощностью GPU, а с памятью и стоимостью работы с длинными последовательностями. В paper, опубликованном для ICLR 2026, авторы показывают, что TurboQuant сохраняет качество на уровне full-precision в тесте Needle-In-A-Haystack, несмотря на сильное сжатие, а также демонстрирует ускорение вычисления attention относительно PyTorch einsum baseline. Иначе говоря, TurboQuant действительно помогает делать inference экономичнее и эффективнее на уровне программного стека.

Почему это не отменяет переход на жидкостное охлаждение

Но из этого не следует, что liquid cooling становится менее нужным. Причина в том, что TurboQuant решает прежде всего проблему памяти и вычислительной эффективности внутри inference, а жидкостное охлаждение решает проблему физического отвода тепла от всё более плотных и прожорливых GPU-систем. Schneider Electric прямо пишет, что традиционное воздушное охлаждение начинает упираться в пределы по мере роста тепловой плотности AI-нагрузок, а direct-to-chip liquid cooling становится одним из наиболее эффективных способов снимать тепло с CPU и GPU. В их материалах 2026 года liquid cooling называется уже не просто улучшением, а фактически необходимой базой для next-generation AI infrastructure.

Здесь логика простая: даже если программная оптимизация уменьшает memory overhead и повышает полезную эффективность inference, она не убирает сам факт, что современные AI-ускорители работают на высокой мощности и длительной утилизации. Schneider отдельно отмечает, что H100 работает примерно на уровне 700 Вт, а B200 приближается к 1000 Вт на GPU; при таком росте мощности тепловая нагрузка на сервер и стойку становится уже архитектурной проблемой. Поэтому software-side efficiency и thermal design — не конкуренты, а два слоя одной и той же инфраструктурной задачи.

Аппаратная и софтверная эффективность теперь работают вместе

Именно поэтому в 2026 году рынок уже смотрит на AI-инфраструктуру не по старой логике “или железо, или софт”, а по модели co-design. Vertiv в своём обзоре трендов на 2026 год прямо связывает развитие AI с extreme densification и adaptive liquid cooling. Это означает, что дата-центр теперь рассматривается как единая система, где вместе проектируются питание, охлаждение, плотность стоек и эффективность вычислительного стека. На этом фоне TurboQuant выглядит не альтернативой liquid cooling, а ещё одним способом повысить итоговую отдачу от уже дорогой GPU-инфраструктуры.

На практике это даёт понятный эффект. Софтверные методы вроде TurboQuant позволяют эффективнее использовать память, держать более длинный контекст или повышать throughput без эквивалентного роста затрат. А жидкостное охлаждение позволяет не терять производительность из-за тепловых ограничений, троттлинга и инженерных потолков воздушной схемы. То есть первая технология повышает вычислительную эффективность на уровне модели, а вторая — физическую эффективность на уровне стойки и площадки. Это разные уровни оптимизации, и для серьёзных AI-проектов нужны оба.

Почему переход на liquid cooling всё равно будет ускоряться

Если смотреть на рынок инфраструктуры, тренд остаётся однозначным. Schneider подчёркивает, что direct-to-chip liquid cooling снимает тепло прямо с самых горячих компонентов и снижает зависимость от мощных вентиляторов и сложной воздушной аэродинамики. Кроме того, single-phase direct liquid cooling описывается как наиболее практичное и масштабируемое решение для AI data centers, потому что сочетает эффективность, сервисопригодность и пригодность как для новых площадок, так и для модернизации существующих. На фоне роста плотности ускорителей это делает жидкостное охлаждение не “дорогой опцией”, а всё более стандартным инженерным выбором.

Именно поэтому компании, которые проектируют сервер для ИИ под реальные production-нагрузки, уже не могут рассматривать охлаждение отдельно от программной оптимизации. Для плотных систем уровня Supermicro SYS-621BT-HNTR или конфигураций на NVIDIA H200 141GB SXM вопрос упирается не только в модель GPU, но и в то, насколько инфраструктура готова держать высокую тепловую плотность без просадки по стабильности и эффективности.

Итог

TurboQuant уменьшает один из главных bottleneck’ов инференса — KV cache и связанные memory costs. Жидкостное охлаждение решает другую проблему — отвод тепла и поддержку высокой плотности GPU-нагрузок. Поэтому правильная формулировка сегодня звучит не как “TurboQuant вместо liquid cooling”, а как “TurboQuant плюс liquid cooling”: программная оптимизация делает AI-систему экономичнее, а жидкостное охлаждение позволяет этой экономике масштабироваться в реальной инфраструктуре.

2026-04-07 19:44