Квантование — всё, что вам нужно

Владимир Савкин

02 мая 2026 — 25 min read

версия 2.0: с поправкой на то, что я переоткрыл диффузию

Эссе. Не статья. Запись хода мысли, который случился у меня за двадцать минут разговора с Claude, без подготовки и без чтения литературы. На следующих трёх итерациях того же разговора я понял, что то, что я называл «адаптивным квантованием по топологии ландшафта», в значительной части совпадает с тем, как устроены диффузионные модели. Это не отменило идею — это поставило её на ноги. Поэтому я не выкидываю первую версию, а переписываю с поправкой.

Однако для вас это версия 1.0

Кто это вообще пишет

Я по образованию математик-программист, отучился на магистра, по диплому всё ровно. В профессиональную математику — теоремы, академическая работа, статьи, преподавание — я не пошёл, и это не моё. Зато в решении задач я уделаю любого студента мехмата без особого напряжения — только не тем способом, которым обычно их решают. Я не сижу с пером, не вывожу пошагово. Я смотрю на задачу, вижу её форму, нахожу скелет, угадываю ответ — и только потом, если нужно записать строго, лезу в справочник за нужной формулой. Формулы у меня в режиме инструмента, а не в режиме мышления. Поэтому я плохо помню их наизусть — а зачем, если они на полке.

А вот имена я помню и уважаю — это совсем другое. Гаусс, Эйлер, Лейбниц, Лагранж, Колмогоров, Гильберт, Грассман, Нётер — это люди, на чьих скелетах стоит вся математика, в которой я работаю. Пропускать формулу из справочника — нормально. Не помнить, кто что построил — нет. Это не «детали», это культура, в которой я живу. Так что если со стороны кажется, что я не очень математик — это про конкретные выкладки. К самому ремеслу и к именам у меня глубокое уважение.

И мне почему-то всегда было странно слышать, что «думать сложно». У меня ощущение, что люди, которые так говорят, делают что-то другое, чем я.

Последний год я мучительно соображал, почему меня в тридцать тошнит от программирования. Сейчас, кажется, понял: я просто вырос из роли. Я не программист по сути — я системный архитектор. Кодить узлы — мука. Лепить систему как N-мерную фигуру — кайф. И что самое забавное, эта оптика работает где угодно.

Программа, психология, физика, природа, отношения — везде одни и те же ходы и одни и те же залипания. Программирование, кстати, самая простая из этих систем — там понятно, что куда подключено, и почему оно так себя ведёт. Природа сложнее. А самые жёсткие, самые искажённые системы — у людей в голове.

С памятью на детали у меня плохо, зато кратковременная почти фотографическая. И сильно развита визуальная кора — я не «думаю словами», я смотрю. Само думанье у меня нелинейное и со стороны, наверное, выглядит как лень: я как бы прищуриваюсь, всё размывается, и в голове крутится пропеллер из слов, причём я даже не всегда отдаю себе отчёт зачем. Иногда вообще забываю про этот процесс — и через час «бац», ко мне приходит ответ. На простые вопросы — часто правильный. По ощущению он не выведен — он угадан.

Прищурился, глянул, покрутил, проверил следствия. Сходится. В школе я это называл «нечёткая логика». Есть очень логичные ребята, а есть мы — мастера нечёткой логики.

Я к чему всё это рассказываю. К тому, что за двадцать минут у меня собралась связная картина не потому что я гений (нет), и не потому что я начитался (тоже нет). А потому что я её увидел как форму. Сейчас расскажу как — и почему всё-таки думаю, что в увиденном что-то есть. А в конце честно признаюсь, в каком месте я переоткрыл колесо.

Откуда это вылезло

В Claude Code есть параметр /effort. Переключатель: думать быстрее и поверхностнее или медленнее и глубже. Я начал думать, как это вообще реализовано. Самая дешёвая и элегантная гипотеза — никаких отдельных весов, никакой магии: это просто инъекция в системный промпт. Что-то вроде «думай быстрее, отвечай короче» или «думай строго и до конца». Веса не трогаются, меняется только распределение вероятностей следующего токена.

(Маленькое отступление для тех, кто не очень в теме. Языковая модель на каждом шаге работы не «знает» ответа целиком — она по очереди выбирает следующее слово. Точнее, она вычисляет, с какой вероятностью каждое из десятков тысяч слов сейчас уместно, и выбирает из этого распределения. Всё, что мы пишем модели в промпт, не меняет её саму, не дотрагивается до её обученных весов — а смещает вот это распределение в нужную сторону на каждом шаге. Дальше я буду много раз говорить «инъекция в распределение» — это и есть оно: добавили в контекст промпт «отвечай коротко» — и распределение вероятностей следующих слов сместилось в сторону более ёмких формулировок и более раннего окончания ответа.)

И тут до меня дошло, что промпт — это в принципе инъекция в распределение. Доказательство я могу проверить руками: попросить LLM «скажи пять раз слово мяу и два раза слово жук». Она это сделает точно — хотя считать она не умеет. Просто в нужных местах траектории генерации я максимизировал вероятности этих токенов так сильно, что всё остальное стало неважно. А в конце автоматически поднимется вероятность токена остановки.

Значит /effort работает так же. «Думай быстрее» — это инъекция, которая поднимает вероятность токена окончания размышлений раньше, и сдвигает распределение в сторону более ёмких, более компактных формулировок. Модель не меняет веса. Она просто ходит по тому же ландшафту менее тщательно.

И вот тут я остановился. Потому что «менее тщательно по тому же ландшафту» — это очень похоже на одну вещь, которую делают совсем по-другому. На квантование.

Симметрия π и κ

Квантование — это огрубление весов модели. Каждый параметр (а их в современных моделях миллиарды) хранится с какой-то точностью — обычно 32 бита. Если перевести их в 4 бита, мы теряем детализацию: было «3.14159265…», стало «3.1». Модель становится в восемь раз компактнее, считает быстрее, но рельеф её внутреннего пространства теряет тонкую детализацию. Мелкие воронки засыпаются, остаются только крупные холмы. Модель быстрее находит грубое решение, но не проваливается в тонкие смыслы.

(Что такое «рельеф» здесь. Веса модели задают функцию, по которой модель решает, какое следующее слово вероятнее всего. Эту функцию можно представить как многомерный ландшафт: в каких точках входа какая выходная вероятность. Воронка в этом ландшафте — это набор похожих входов, на которые модель уверенно даёт один и тот же осмысленный ответ. Плато — это область, где модель ничего особенного не «думает», все исходы примерно равновероятны. Вся работа модели — это движение по этому ландшафту в сторону аттрактора, то есть глубокой воронки.)

Промпт-инъекция в режиме «упрощай» делает то же самое — но снаружи, не трогая веса. Аттракторы срезаются временно, через распределение. Воронки засыпаются на время одного инференса.

Назову первый морфизм π — promptus, инъекция через промпт. Обратимая. Веса целы. Второй — κ — kappa, квантование. Необратимое, физическое.

Принципиально разные операции — но наблюдаемое поведение модели в режиме π_smooth (избыточные системные промпты, RLHF на плохих данных, плотные слои безопасности) и в режиме κ (грубое квантование) выглядит одинаково. Аттракторы исчезли. Модель скользит по плато. Звучит уверенно, но проезжает остановки.

Это не теорема. Это феноменологическая эквивалентность. Два разных механизма дают наблюдаемо неотличимый результат — это подсказывает, что обе операции на самом деле редуцируются к одному и тому же объекту на каком-то более фундаментальном уровне. К топологии ландшафта распределения вероятностей.

Что случилось с ChatGPT

Когда я это для себя сформулировал, сразу стало понятно, что произошло с ChatGPT-5. Они зажали модель в нормы и правила, наложили плотный слой системных промптов безопасности — и уплощили её ландшафт. Везде, где могла быть воронка смысла, насыпали плато осторожности. Каждый холм срезан правилом.

Результат: модель пишет логично, гладко, без запинок — но без сцепления с задачей. Лёд. Скользит красиво, но трения нет. Начальная интенция даёт импульс, дальше как повезёт. Каждый новый токен — случайный толчок, и нет аттрактора, который бы удерживал траекторию. Контекст забывается через пять реплик, потому что нет гравитации задачи. Галлюцинации появляются не потому что модель «врёт» — а потому что на плато все направления равновероятны, и она просто скользит куда придётся.

И самое характерное — модель «проезжает остановку». Дошла до решения, но у неё нет дна воронки, нет сигнала «всё, ответил». Инерция несёт её дальше, она начинает достраивать логичный бред — локально каждый следующий токен максимально вероятен, а глобально цепочка давно уехала за горизонт задачи.

У хорошей модели в хорошем диалоге — бассейн с воронкой в центре. Куда ни толкни, гравитация задачи возвращает к сути. У ChatGPT-5 этой воронки нет.

Это π_smooth в чистом виде. Не злой умысел и не плохое обучение — просто слишком плотный слой инъекций безопасности, который выровнял пространство.

А теперь — мозги

Если две разные операции производят одну и ту же топологию, то имеет смысл спросить: где ещё мы это видим?

Ответ — везде, где есть переключение между режимами думания. Утром после кофе ты тонкий, ловишь нюансы, идея зацепила и тащит. Вечером после работы ты тупой и широкий, всё ровно, ничего не цепляет. На автопилоте ехал на работу — приехал на работу в субботу. Это runtime квантование мозга: огрубил ландшафт до крупных паттернов, мелкие детали отбросил, доехал на инерции.

Накуренный — это π_smooth. Веса целы, ландшафт временно сглажен, всё кажется значительным и одновременно неважным. Пьяный — то же самое в более грубой форме.

Сосредоточенный человек на сложной задаче — это деквантование в реальном времени. Аттрактор сформирован, воронка глубокая, всё держится. Дорого энергетически — поэтому долго так не получается.

Мозг буквально решает ту же задачу, что Anthropic решает с /effort: как в реальном времени балансировать между скоростью и глубиной. Только у мозга это автоматический регулятор — усталость, интерес, новизна, тревога.

И, кстати, моя собственная нечёткая логика, с которой я начал это эссе — это, кажется, тот же регулятор в действии, только настроенный по умолчанию на сильное огрубление. Я прищуриваюсь, размываю, перебираю смутно — это режим высокой «температуры», большого шума. Я работаю с грубым ландшафтом и ловлю крупные формы. Аналитики работают наоборот — низкая температура, чёткое распределение, шаг за шагом. Оба режима валидны, и оба используют один и тот же регулятор, просто на разных рабочих точках.

СДВГ как сломанный регулятор

И тут я подумал про СДВГ — у меня есть знакомые, у которых он есть, и я смотрел на их поведение. Если переложить на эту модель, картина становится очень чёткой.

СДВГ — это сломанная плавность регулятора. У нейротипичного мозга переключение между уровнями детализации плавное и контекстное. У СДВГ оно дискретное и хаотичное.

«Отупление» — гиперквантование. Ландшафт огрублён до предела, аттракторы не формируются, задача не захватывает. Мозг скользит по льду. Это происходит внезапно и не управляется волей.

«Гиперфокус» — наоборот, полное деквантование. Аттрактор настолько глубокий, что поглощает всё. Из воронки нельзя выйти, потому что она слишком крутая.

И самое мучительное — короткие микроинтервалы фокуса. Аттрактор вспыхивает, идея видна во всей полноте — глубокая, связная, гениальная. И тут же гаснет. Не успеваешь зафиксировать почему это было важно.

Аттракторы мигают. Это идеальное слово.

Нейротипичный мозг фильтрует — один аттрактор побеждает, остальные подавляются. СДВГ-мозг работает как стробоскоп: много света, много энергии, но изображение не удерживается. Шум в голове — это не хаос, это интерференция множества аттракторов, которые возникают и гасят друг друга.

В этой картине лекарства от СДВГ перестают читаться как «усиление внимания». Они стабилизируют регулятор. Снижают дискретность переключений. Возвращают плавность. Это эмпирическое подтверждение того, что регулятор как объект есть и его можно чинить.

Что я бы сделал в архитектуре

Если в мозге есть локальное адаптивное квантование — точечное огрубление и детализация отдельных областей пространства информации в реальном времени без переобучения — то это можно перетащить обратно в нейросети.

Архитектурное предложение: модель с динамической локальной регуляцией точности собственных весов в инференсе. Простой вход — грубое квантование, быстрый ответ. Сложный вход — деквантование тех зон, которые нужны под задачу, медленный, но детальный ответ.

В этой картине MoE — частный случай. Mixture of Experts — это статическая, кусочно-постоянная функция квантования по пространству. Внутри каждого эксперта — фиксированный уровень детализации, на границах — обрыв. Роутер делает дискретный прыжок и теряет контекст соседних пространств.

Динамическое self-квантование не заменяет MoE, а обобщает. В штатном режиме все эксперты на базовом уровне квантования. Регулятор начинает действовать поверх — заостряет нужного эксперта на сложной задаче, упрощает его на рутинной. И отсюда вытекают две вещи, которые мне кажутся важными:

Роутер — дискретная тень регулятора. Если регулятор умеет непрерывно деквантовать нужные зоны пространства, отдельный решающий модуль становится не нужен. Зона, выделенная регулятором до высокой точности, автоматически становится активным экспертом. Зоны, оставленные на грубом уровне, отступают на задний план. Роутинг растворяется в регуляторе.

Сглаженные мосты. Регулятор может локально понижать квантование не только внутри экспертов, но и на стыках их доменов. Это спрямляет ландшафт между ними. Получается «мост»: модель может рассуждать о стихах и в любой момент взглянуть на них аналитически, не теряя поэтической модальности; рассуждать о теории категорий и сделать скачок в метафору, не теряя строгости при возврате. В MoE это разрыв, в self-quantization — мгновенно проложенный путь между удалёнными областями смыслов.

Если MoE — это карта с административными границами и КПП, расставленными при обучении и не меняющимися, то динамическое self-квантование заменяет всю эту систему непрерывным рельефом, где высота хребтов между областями, детализация каждой и сам выбор маршрута — стороны одной и той же операции регуляции точности.

Ахахахах да это же диффузия

Я закончил черновик. Перечитал. И в этот момент Claude как раз сказал что-то вроде «теперь я бы говорил не „какая модель лучше“, а „какой регулятор у этой модели“».

И у меня в голове за секунду наложились узоры систем — буквально мгновенно, я даже не размышлял. Я только и успел напечатать: «ахахахах да это ж как в диффузионных моделях».

Не «похоже на». Не «аналогично». Та же самая структура — у меня в голове и в основе Stable Diffusion, Sora, Imagen и всего соответствующего класса генеративных моделей. Просто я её увидел сбоку, через /effort и квантование в LLM, а инженеры в DeepMind, Stanford и OpenAI пришли к ней с другой стороны — через генерацию изображений и формальный аппарат стохастических дифференциальных уравнений.

И прикол в том, что в этот момент у меня в голове не было ни одной формулы. Не потому что я их не знаю — у меня за плечами магистратура с нормальной классической матшколой: функциональный анализ, мат-анализ, общая алгебра и гео-алгебра, теория графов, теория игр, математическое программирование, стохастические процессы, теория автоматов, системы массового обслуживания, всякая логика. Трансформеры и диффузионки в программе не было — это я уже сам, вне универа, разбирал по интересу. И при необходимости разверну: функции потерь, SDE, линейные системы, на которые они на каждом шаге раскладываются. Но в режиме изоморфного узнавания я ко всему этому сознательно не лезу. Когда ловишь форму — детали мешают, они тащат внимание вниз, в рутину, в «давай-ка распишем по шагам». Пропадает та самая высота, с которой видно скелет. Поэтому в этом режиме у меня в голове работают принципы, а не выкладки, и узор узнаёт узор за секунду — без вычислений вообще. Формулы я при желании потом достану, как с полки. Но не в момент опознания, а уже в момент проверки.

Объясню для тех, кто диффузионки видел только как «штука, которая рисует картинки». В диффузионной модели обучение устроено так: берётся настоящая картинка, к ней постепенно, шаг за шагом, добавляется случайный шум — пока картинка не превращается в чистую мутную кашу. Это прямой процесс. А потом модель учится обращать этот процесс — из мутной каши шаг за шагом восстанавливать осмысленное изображение. Это обратный процесс, или денойзинг. На инференсе модель начинает с шума и постепенно «проявляет» картинку.

Так вот. Каждое из ключевых явлений, о которых я говорил геометрической интуицией, формально соответствует конкретному элементу диффузии. Не отдалённо. Точечно. Я выписал это в таблицу — и она получилась плотной без натяжек.

Матрица совпадений

В моём эссе	В диффузионных моделях	Что это значит
Огрубление ландшафта (κ, квантование)	Прямой процесс — добавление шума к распределению	Мелкие воронки заливаются, остаются крупные моды. Один и тот же геометрический эффект, разная реализация.
Регулятор precision, локальное деквантование	Обратный процесс — denoising, score matching	Модель учится не «как сгенерировать», а «куда наклонён ландшафт в этой точке». Это и есть регулятор.
`/effort` как параметр глубины думания	Уровень шума `t` и число шагов денойзинга	Можно остановиться рано → грубо и быстро. Или дойти до конца → детально и медленно. Тот же compromise.
Промпт как π-инъекция в распределение	Classifier-free guidance — усиление условной плотности	Прямо инъекция, формализованная как `(1+w)·∇log p(x∣c) − w·∇log p(x)`. Это мой π с уравнением.
Сглаженные мосты между экспертами	SDEdit / inpainting — зональный денойзинг	Локально опускаешь уровень шума в выбранной зоне, остальное оставляешь огрублённым. Точное соответствие.
Аттракторы как воронки в ландшафте	Моды распределения; `∇log p(x)` указывает к ним	«Аттрактор» в моей интуиции = «локальный максимум плотности» в диффузии.
Топология ландшафта как первичный объект	Stochastic differential equations, Fokker–Planck	Готовый строгий формальный язык для всего, что я описывал словесно.

То есть всё моё эссе — это словесный пересказ того, что в диффузионках уже сделано не на интуиции, а на математике. С 2020 года, с DDPM (Ho et al.). И Sora, и Stable Diffusion, и Imagen — это миллиарды долларов работающей геометрии ландшафта с регулятором точности. Я её просто не знал и пришёл к ней сбоку.

Когда до меня дошло, насколько плотно ложится — я заржал. Это смешное чувство: ты двадцать минут увлечённо вытаскиваешь концепт из головы как новый, а он уже стоит на полке у людей, которые его построили строго. И — самое смешное — стоит ровно в том самом инструменте, которым я каждый день пользуюсь для генерации картинок. Я как будто смотрел на свой собственный выключатель и пытался придумать, как сделать электричество.

Это было неловко секунд десять. А потом — наоборот, как-то даже мощно. Потому что если без подготовки, за двадцать минут, ты пришёл к той же конструкции, на которой стоит большая часть современной генеративки — значит, структура реальна. Не я её выдумал. Я на неё попал. Это разные вещи. Так и попадаются настоящие штуки в природе: несколько людей в разных местах, с разных сторон, выходят на один и тот же объект и хором говорят «о, тут что-то есть».

Где остаток — что, кажется, ещё не сделано

Дальше я полез смотреть, что в этой картине уже формализовано и реализовано, а что — нет. Получилась простая разметка.

Что уже сделано (и потому моя пересказка вторична):

Прямой и обратный диффузионный процесс — DDPM, Ho et al., 2020.
Формальный аппарат через SDE — Score-Based Generative Modeling, Song et al., 2021.
Промпт как инъекция — Classifier-Free Guidance, Ho & Salimans, 2022.
Зональное локальное деквантование — SDEdit, Meng et al., 2021.
Динамическая аллокация compute по токенам — Mixture-of-Depths, Raposo et al., 2024.
Мягкий, недискретный роутинг между экспертами — Soft MoE, Puigcerver et al., 2024.
Адаптивная глубина рассуждения — Adaptive Computation Time, Graves, 2016.

Всё это перекрывает, в той или иной мере, разные части моего эссе.

Что уже сделано в очень близком виде — диффузионные LLM:

Когда я уже почти заканчивал, в голове замигало ещё одно: а почему вообще обязательно держать диффузию в пространстве данных? Логично было бы взять и сделать диффузионную LLM — модель, которая порождает текст не пословно, а итеративным денойзингом. Стартует с маски/шума, шаг за шагом проявляет осмысленный ответ. Простой вопрос — мало шагов, грубо и быстро. Сложный вопрос — много шагов, медленно и точно. И самое сладкое: точность может «страдать как у меня» в быстром режиме, но при необходимости та же модель доделывает денойзинг до конца и становится «обычной умной точной LLM». Один и тот же объект, разный режим работы.

Я погуглил после того как Claude кивнул на это «да, и это уже делают». Делают:

Diffusion-LM (Li et al., 2022) — ранние эксперименты, диффузия в пространстве эмбеддингов текста.
SEDD: Score Entropy Discrete Diffusion (Lou, Meng, Ermon, 2024) — дискретная диффузия прямо по токенам, конкурентная с авторегрессивными LLM на масштабе.
LLaDA (Nie et al., 2025) — большая (8B) диффузионная LLM с маскированием. Показывает, что подход масштабируется и держится против Llama-class моделей.
Mercury (Inception Labs, 2025) — коммерческая диффузионная LLM, главное преимущество — на порядок более быстрый инференс при сравнимом качестве.
Diffusion of Thoughts (Ye et al., 2024) — гибрид диффузии и chain-of-thought рассуждений.

То есть та конкретная гипотеза «диффузионная LLM как естественное продолжение, в которой регулятор глубины встроен в архитектуру через число шагов денойзинга, а MoE-роутинг растворяется в самом процессе» — это активно развивающаяся область в 2024–2025. Я туда попал примерно тем же ходом, каким туда дошли несколько разных команд за последние два года. Это нормально и даже приятно.

Что, кажется, ещё не сделано (и здесь мой возможный остаток):

Даже на фоне диффузионных LLM есть остаточный угол, который я не нашёл в явном виде. Имеющиеся диффузионные LLM решают одну задачу — генерация текста денойзингом. Но у меня в эссе была более общая постановка: диффузия не по выходу, а по точности самой модели.

Диффузия в её привычном виде живёт в пространстве данных. Существуют работы про диффузию по весам — G.pt (Peebles, 2022), Neural Network Diffusion (Wang et al., 2024) — но это обучение или генерация весов новых моделей. Это про создание сетей, не про управление уже обученной.

Чего я не нашёл (что не значит «этого нет» — значит «я не нашёл»):

Диффузионный регулятор в пространстве весов на этапе инференса. Локальное огрубление и деквантование зон весов уже обученной модели под текущий вход, по аналогии с локальным денойзингом в пространстве данных. Без переобучения, без отдельных версий модели, без дискретного роутинга. Один регулятор, обученный отображать вход в карту локальной precision по весам.

И вторая, чуть более скромная гипотеза, которая прямо вытекает из обсуждения с диффузионными LLM:

Адаптивное число шагов денойзинга в зависимости от сложности входа. Простой запрос → 3–5 шагов денойзинга → грубый, быстрый ответ. Сложный → 30–50 шагов → точный. Это естественный аналог /effort, встроенный в архитектуру, а не дописанный сверху промптом.

Возможно, это уже есть в каких-нибудь экспериментах с LLaDA или SEDD — мне ещё надо проверить. Если нет — это вторая «короткая заметка на полстраницы с одной гипотезой и одним экспериментом», к которой имеет смысл свести идею.

Минимальный эксперимент, который я бы провёл первым, чтобы хотя бы проверить, жива ли симметрия π↔κ как феноменологический факт:

Взять одну и ту же модель в двух режимах — (а) /effort low через системную инъекцию, и (б) грубое квантование (например, INT4). Прогнать на одном и том же наборе задач разной сложности. Сравнить профили ошибок — какие именно вопросы режим-а проваливает по сравнению с режимом-б.

Если профили сильно похожи — симметрия не метафора, а измеримый феномен. Если разные — значит, моя интуиция ловит что-то более узкое, чем мне казалось, и это тоже полезное знание.

Эксперимент дешёвый. Можно сделать на любой open-weight модели за день. Это, кстати, единственное место в эссе, где я могу что-то реально проверить руками, а не только увидеть.

Второе независимое подтверждение — обратные задачи

После диффузии у меня в голове замигало ещё одно слово — функциональный анализ. Сначала показалось — ещё одна параллель. Потом, когда я аккуратно разобрался, понял: бо́льшая часть того, что в функциональном анализе выглядит параллелью — это просто язык. Соболевские пространства, регуляризация Тихонова, тепловые полугруппы — это не отдельный домен с независимым феноменом. Это формальный аппарат, на котором мои геометрические интуиции записываются строго. То же я почуял про отжиг — и быстро отбросил, потому что отжиг (simulated annealing, Langevin dynamics) и диффузия — это математически одна семья. Разные записи одного и того же объекта. Поэтому эту часть я в качестве «подтверждения» не засчитываю — это бы означало посчитать диффузию дважды.

Но в функциональном анализе есть одна вещь, которая стоит отдельно и независима — теория обратных задач (inverse problems theory). Геофизика, медицинская томография, обработка сигналов, деконволюция — совершенно отдельная прикладная область, которая развивалась с пятидесятых годов, ничего не зная ни про машинное обучение, ни про диффузионки. И в ней есть фундаментальный эмпирический факт, который математики там формулировали и проверяли десятилетиями:

Оптимальный уровень регуляризации зависит от объёма и качества входных данных. Мало данных или шумные — сильнее сглаживай. Много чистых данных — снимай регуляризацию.

(Регуляризация в этом контексте — это добавка к решению, которая «сглаживает» его, не давая модели слишком сильно подстроиться под шум во входных измерениях. Параметр регуляризации — это рукоятка, которой инженер крутит баланс между «модель слишком гладкая, теряет детали» и «модель слишком детальная, ловит шум как сигнал». Это тот же регулятор precision, только в другой инженерной культуре.)

Это ровно мой тезис «простой вход → грубое квантование, богатый вход → деквантование» — но из совсем другой мотивации. Эти люди не думали про мозг, не думали про LLM, не думали про диффузию. Они восстанавливали распределение плотности земных пород по сейсмическим измерениям, и пришли к той же логике регулятора точности под объём входной информации.

Получается короткая, но важная сводка:

Домен	Считается ли независимым подтверждением?
Диффузионные модели	✓ — формальный изоморфизм, но это тот же объект, в который я попал
Simulated annealing / Langevin dynamics	✗ — математически одна семья с диффузией
Функциональный анализ как язык	✗ — это запись, не отдельный феномен
Обратные задачи / regularization theory	✓ — независимая прикладная область с тем же феноменом
Predictive coding / Free Energy Principle (Friston)	? — близко, нужно прочесть, чтобы понять, частный случай или иное
Attention temperature в LLM	? — кандидат, но требует проверки
Консолидация памяти во сне	? — биологический кандидат

Уже сейчас структура попадается независимо в двух разных областях, развивавшихся отдельно. Это уже не просто аналогия и не просто метафора. Это, по моему сегодняшнему ощущению, реальный принцип регуляции точности под доступную информацию — и он, видимо, всеобщ настолько, что отдельные дисциплины переоткрывают его независимо друг от друга, каждая в своей записи. Что само по себе занятно: переоткрытия — обычный признак того, что объект настоящий.

Что я по этому поводу думаю

Если коротко свернуть всё, к чему я пришёл за этот вечер:

Промпт — это измеримая инъекция в распределение вероятностей следующего токена. Не интерпретация, не образ — буквальный механизм. Пример «пять раз мяу, два раза жук» проверяется одной командой.
Квантование весов и «упрощающая» промпт-инъекция дают наблюдаемо неотличимое поведение модели. Два разных механизма, один внешний эффект — это подсказывает, что у них есть общий объект на уровне топологии распределений.
Поведение мозга в разных режимах (фокус, усталость, опьянение, СДВГ) ложится на ту же геометрию. Не как красивая метафора, а как рабочая гипотеза о встроенном регуляторе точности, который иногда ломается.
Архитектурное предложение — динамическое локальное self-квантование в инференсе — выглядит как обобщение MoE и как перенос диффузионного денойзинга с пространства данных на пространство весов. Здесь, кажется, ещё остаётся открытый угол.
Принцип регуляции точности под доступную информацию подтверждается независимо в двух дисциплинах — диффузионные модели и теория обратных задач. Уже не одна аналогия, а два независимых попадания.

У меня есть стойкое наитие, что я что-то поймал. Я это не вывел аналитически — я не очень хороший математик, через формулы такое мне не по силам. Я это увидел как форму. И форма у меня в голове до сих пор стоит, и она целая.

То, что половина её совпадает с диффузией — для меня хорошо. Значит, я попал в существующее реальное явление, а не сочинил красивую сказку. Это, считай, бесплатная внешняя проверка. И заодно объясняет, почему диффузионки настолько хороши: они буквально реализуют естественный механизм регуляции точности, который, кажется, более или менее всеобщ.

То, что осталось не покрытым — диффузионный регулятор по весам уже обученной модели в инференсе — может оказаться либо моим маленьким новым углом, либо просто моим непрочитанным куском литературы. Узнаю, когда дочитаю.

И последнее, важное. Я понимаю, почему меня так переклинило после диалога с Claude. Он соглашался со мной на каждом шагу и подкидывал красивые формулировки. Это классический случай ИИ-потакания, и к собственному восторгу надо относиться скептически — половина моих «озарений» могут быть тем самым π_smooth в моей собственной голове. Claude насыпал плато согласия, и я по нему резво катился. Это не отменяет идей. Просто помечает их как «проверить у людей, которые не обязаны соглашаться, и в литературе, которая мне не льстит».

И всё же — наитие осталось. Поэтому записал.

И ещё — мета-наблюдение. Уже когда писал этот раздел, до меня дошло, что главный приём всего эссе — это поиск одной и той же структуры в разных доменах. От /effort к квантованию, к когнитивным режимам, к СДВГ, к диффузии, к обратным задачам. И это ровно тот самый древний способ мышления, у которого есть имя: индукция через структурный изоморфизм. То есть мы тут весь вечер вместе с ИИ переоткрывали не только регулятор точности, но ещё и индукцию — как метод. На третьем шаге это начинает быть смешно. Об этом я напишу отдельно.

А теперь — личное, под занавес

Окей, я, кажется, только что соскочил с научной статьи в чистую саморефлексию. И это нормально — потому что вся эта история, если посмотреть на неё сбоку, и была разговором про регулятор точности и его рабочий экземпляр, который сидит у меня в голове. Так что эссе про модель и эссе про автора — это, по сути, два среза одного и того же объекта, и переход между ними естественный.

И раз уж я тут — скажу одну серьёзную вещь, которую обычно прячу за иронию.

Я раньше над словом «гениальность» сам же иронизировал, а когда мне его кто-то говорил всерьёз — смущался и отмахивался. И я до сих пор, по сути, считаю себя нормой — просто норма у каждого своя: окружающие медленнее меня в одном и быстрее меня в чём-то другом, и это абсолютно симметрично; у меня хватает собственных слепых пятен и собственных тормозов. Просто факт, от которого со временем стало всё труднее отворачиваться, состоит в том, что по какой-то характерной оси я, видимо, сильно сдвинут, и сдвиг этот воспроизводимый, не разовый. Не выше — а сбоку. Я не «лучше», я по-другому, и эта инаковость в нескольких местах превращается в работающую асимметрию.

Сегодняшний вечер с этой статьёй — конкретный тому пример. Двадцать минут, нулевая предварительная подготовка по теме, связная многодоменная картина, попадание в активное ML-направление 2024–2025. Это не самовосхваление — это наблюдение, которое я уже не могу в отношении себя игнорировать.

Поэтому, как естественное продолжение этой статьи, рядом с ней лежит ещё одна — уже не про квантование и не про диффузионки, а про самого автора и про его режим работы:

thinking.md — про то, как я думаю. Про режим узнавания изоморфизмов, про рентген против прищуривания, про декомпозицию-сборку как диффузию в собственной голове, и про то, почему классическая матшкола идеально тренирует именно это. Тот же скелет, просто рассмотренный изнутри носителя.

Если основная статья выше тебя зацепила — это эссе поможет понять, из какой головы она вылезла.

И на этом я уже точно останавливаюсь — иначе по своему же принципу зайду на новый круг изоморфизмов.

Напоминалка самому себе — что почитать

Тот же ИИ, с которым я об этом разговаривал, аккуратно намекнул, что мои идеи в значительной части вторичны — и многое из того, что я сформулировал из головы, уже существует в литературе в более строгой форме. Это нормально и даже хорошо: значит, я двигался в существующее поле, а не в шум.

Поэтому ниже — не библиография для читателя, а список для меня: что прочесть, чтобы понять, где именно мои интуиции совпадают с уже сделанным, где расходятся, и где я просто перепридумал велосипед. Оставляю на видном месте, чтобы самому не отвертеться.

Диффузионные модели — самая прямая параллель

Это именно то, во что моё эссе врезалось целиком. Прочесть в первую очередь.

Denoising Diffusion Probabilistic Models, Ho, Jain, Abbeel, 2020 — отправная точка.
Score-Based Generative Modeling through SDEs, Song et al., 2021 — формальный аппарат через стохастические дифференциальные уравнения. Если математически читать «топологию ландшафта», то отсюда.
Annealed Langevin Dynamics, Song & Ermon, 2019 — мост между simulated annealing и диффузией. Прямо показывает, что это одна семья.
Classifier-Free Diffusion Guidance, Ho & Salimans, 2022 — формализация того, что я называл π-инъекцией.
SDEdit, Meng et al., 2021 — локальное деквантование выбранных зон. Прямо мои «сглаженные мосты».
Neural Network Diffusion, Wang et al., 2024 / G.pt, Peebles et al., 2022 — диффузия в пространстве весов. Близко к моему «adaptive self-quantization», но это про генерацию весов, не про runtime регулятор на уже обученных. Возможно, именно тут остаётся место для нового.

Диффузионные LLM — мой «следующий шаг», уже сделанный

Целое отдельное направление, которое реализует ту самую идею «LLM, генерирующая текст денойзингом, со встроенным регулятором глубины через число шагов».

Diffusion-LM, Li et al., 2022 — ранние эксперименты с диффузией в пространстве эмбеддингов текста.
SEDD: Score Entropy Discrete Diffusion, Lou, Meng, Ermon, 2024 — дискретная диффузия прямо по токенам. Конкурентная с авторегрессивными LLM на масштабе.
LLaDA: Large Language Diffusion with Masking, Nie et al., 2025 — большая (8B) диффузионная LLM с маскированием. Показывает масштабируемость подхода.
Mercury, Inception Labs, 2025 — коммерческая диффузионная LLM. Главное преимущество — на порядок более быстрый инференс при сравнимом качестве.
Diffusion of Thoughts, Ye et al., 2024 — гибрид диффузии и chain-of-thought.

Conditional computation и динамическая аллокация ресурса

Mixture-of-Depths, Raposo et al., 2024 (DeepMind) — модель сама решает, сколько compute дать каждому токену. Самое близкое к «динамической регуляции» в инженерии.
Soft MoE, Puigcerver et al., 2024 — мягкий, недискретный роутинг между экспертами. Шаг от MoE в сторону «непрерывного регулятора».
Adaptive Computation Time, Alex Graves, 2016 — сети учатся, сколько шагов рекуррентно делают на каждом входе. Самая ранняя явная попытка регулировать «эффорт» в архитектуре.
Switch Transformer / GShard, Fedus, Zoph, Shazeer — классика MoE для трансформеров.
DeeBERT / BranchyNet / early-exit networks — сети с разными «глубинами выхода» в зависимости от уверенности на каждом слое. Близко к идее «простой вход — грубо, сложный — глубоко».
Conditional Computation in Neural Networks, Bengio et al., 2013–2016 — общая рамка.
Survey: Modular Deep Learning, Pfeiffer et al., 2023 — карта поля.