Глубокий технический разбор архитектур для генерации говорящих аватаров из единственного изображения: сравнение GAN-based и diffusion-based подходов, механизм Audio2Lip синхронизации через HuBERT/Wav2Vec2, роль 3DMM-параметров и face landmarks, анализ trade-off между качеством, скоростью и стоимостью инференса.

Создание ИИ-аватара из одного фото: технический разбор talking-head моделей и Audio2Lip синхронизации

Введение: задача one-shot talking head generation

Генерация говорящего аватара из единственной фотографии — одна из наиболее востребованных задач в области компьютерного зрения и синтеза медиа. В отличие от классических подходов, требующих множества изображений или видео для обучения персонализированной модели, one-shot методы позволяют создать анимированный портрет на основе одного кадра и произвольного аудио.

Техническая сложность задачи заключается в необходимости одновременно решить несколько подзадач: извлечь из аудио фонетические признаки, преобразовать их в параметры движения лицевых мышц, сохранить идентичность исходного лица, обеспечить временную когерентность между кадрами и синхронизировать движения губ с речью. При этом модель должна обобщаться на произвольные лица и голоса без дополнительного обучения.

Современные архитектуры можно разделить на два больших класса: основанные на генеративно-состязательных сетях (GAN) и использующие диффузионные модели (diffusion models). Каждый подход имеет свои преимущества и ограничения в контексте talking head generation, которые мы подробно рассмотрим.

GAN-based vs Diffusion-based подходы

Архитектуры на основе GAN доминировали в области синтеза лиц до 2022 года. Типичная GAN-based talking head система состоит из нескольких компонентов: энкодера исходного изображения, audio-to-expression модуля, генератора кадров и дискриминатора. Примеры таких архитектур — First Order Motion Model (FOMM), Face-vid2vid, MakeItTalk.

Основное преимущество GAN — скорость инференса. Современные GAN-генераторы способны производить кадры 512×512 пикселей со скоростью 30-60 FPS на GPU среднего уровня (RTX 3090, A10). Это достигается за счёт прямого прохода через относительно компактную сеть (обычно 50-150 миллионов параметров для генератора). Недостаток — склонность к артефактам при значительных отклонениях от обучающего распределения: неестественные текстуры кожи, размытие в области глаз, рассинхронизация при быстрой речи.

Diffusion-based модели появились в talking head generation позже, но быстро показали превосходство в качестве. Архитектуры типа DiffTalk, Diffused Heads, GAIA используют latent diffusion с conditioning на аудио и reference image. Процесс генерации включает десятки шагов денойзинга (обычно 20-50 DDIM steps), что замедляет инференс до 2-5 FPS на том же железе.

Ключевое отличие в механизме работы: GAN пытается напрямую отобразить латентный код в пиксели, минимизируя adversarial loss и reconstruction loss. Diffusion модель постепенно убирает шум из латентного представления, управляемая cross-attention механизмом, который связывает аудио-фичи с визуальными. Это позволяет диффузии лучше сохранять мелкие детали лица (поры кожи, текстура волос) и генерировать более естественные микровыражения.

Критерий	GAN-based	Diffusion-based
Скорость инференса (512×512, RTX 3090)	30-60 FPS	2-5 FPS
Качество текстур	Среднее, склонность к размытию	Высокое, сохранение деталей
Временная стабильность	Хорошая при малых движениях	Отличная, меньше flickering
Размер модели	50-150M параметров	400M-1.5B параметров
Требования к VRAM	4-8 GB	12-24 GB
Обобщение на out-of-distribution лица	Слабое	Сильное
Latency для real-time	Подходит	Требует оптимизаций

В продакшене выбор между GAN и diffusion определяется use case. Для real-time приложений (видеозвонки, стриминг) GAN остаётся единственным практичным вариантом. Для офлайн-генерации контента (озвучка видеокурсов, дубляж) diffusion даёт заметно лучший результат, особенно при длительных видео, где накапливаются артефакты GAN.

Audio2Lip синхронизация: от аудио к параметрам лица

Центральная проблема talking head generation — преобразование аудиосигнала в параметры движения лица, которые обеспечат точную синхронизацию губ (lip-sync) и естественные сопутствующие движения (head pose, eye blinks, eyebrow raises).

Современный pipeline состоит из трёх этапов:

Извлечение аудио-фич — преобразование raw waveform в высокоуровневые фонетические представления
Audio-to-expression mapping — отображение аудио-фич в параметры лицевой анимации
Expression-to-image rendering — генерация финального кадра с учётом параметров

На первом этапе используются self-supervised audio encoders: HuBERT (Hidden Unit BERT) или Wav2Vec2. Эти модели обучены на сотнях тысяч часов речи и извлекают контекстуализированные эмбеддинги, которые коррелируют с фонемами, но не зависят от конкретного языка или говорящего.

HuBERT принимает на вход аудио с частотой дискретизации 16 кГц и выдаёт последовательность векторов размерности 768 или 1024 (в зависимости от размера модели — base или large) с частотой 50 Гц (один вектор на 20 мс аудио). Wav2Vec2 работает аналогично, но использует contrastive learning вместо masked prediction.

Критически важный момент: эти энкодеры обучены на задаче распознавания речи, а не синтеза лица, поэтому их эмбеддинги содержат избыточную информацию (интонация, акцент, шум) и недостаточно специфичны для визем (визуальных фонем). Поэтому требуется второй этап — audio-to-expression encoder.

Audio-to-expression encoder — это обычно Transformer или 1D CNN, который принимает последовательность HuBERT/Wav2Vec2 эмбеддингов и выдаёт параметры лицевой анимации. В качестве целевого представления используются либо 3DMM-коэффициенты (3D Morphable Model), либо 2D facial landmarks, либо напрямую latent code генератора.

3DMM-параметры — наиболее популярный выбор. 3D Morphable Model представляет лицо как линейную комбинацию базисных форм (shape basis) и выражений (expression basis). Стандартные модели типа BFM (Basel Face Model) или FLAME используют 80 shape-параметров (геометрия лица), 64 expression-параметра (мимика), 3 параметра позы головы (pitch, yaw, roll) и 3 параметра положения челюсти (jaw pose). Итого ~150 параметров на кадр.

Обучение audio-to-expression encoder требует парных данных: аудио + соответствующие 3DMM-параметры. Такие данные получают, применяя 3D face reconstruction к видео (например, через Deep3DFaceRecon или DECA), извлекая параметры для каждого кадра и выравнивая их с аудио по временной шкале. Датасеты типа VOCA, VOCASET, BIWI содержат десятки часов такой разметки.

Loss-функция для обучения audio-to-expression модели обычно комбинирует несколько компонентов:

L1 или L2 loss между предсказанными и ground truth 3DMM-параметрами
Velocity loss — штраф за резкие изменения параметров между соседними кадрами (обеспечивает плавность)
Lip-sync loss — дополнительный вес на параметры, отвечающие за движение губ (обычно 10-15 параметров из 64 expression-параметров)

Важная деталь: аудио и видео имеют разную частоту. Аудио обрабатывается с частотой 50 Гц (HuBERT output), видео — 25-30 FPS. Audio-to-expression модель должна учитывать это несоответствие, используя либо upsampling аудио-фич, либо attention механизм, который агрегирует несколько аудио-фреймов для одного видео-фрейма.

Роль 3DMM-параметров и face landmarks как control signal

После получения 3DMM-параметров или 2D landmarks встаёт вопрос: как использовать их для управления генерацией изображения. Существует два основных подхода: rendering-based и direct synthesis.

Rendering-based методы сначала рендерят 3D-меш лица с заданными параметрами в 2D-изображение (обычно через дифференцируемый рендерер типа PyTorch3D или Neural Mesh Renderer), получая карту нормалей, depth map и UV-текстуру, а затем используют эти карты как conditioning для генератора изображений. Преимущество — явный контроль над геометрией, недостаток — накладные расходы на рендеринг и сложность с фотореалистичными текстурами.

Direct synthesis методы напрямую подают 3DMM-параметры или landmarks в генератор как conditioning vector. Например, в GAN-архитектурах параметры конкатенируются с латентным кодом или подаются через adaptive instance normalization (AdaIN) слои. В diffusion моделях параметры кодируются через отдельный MLP и добавляются к timestep embedding или используются в cross-attention.

Face landmarks (68 или 478 точек в формате MediaPipe) — альтернативное представление. Они проще в получении (не требуют 3D reconstruction), но менее информативны: landmarks описывают только контуры, но не содержат информацию о глубине или текстуре. Тем не менее, для задачи lip-sync 2D landmarks часто достаточно.

Типичная схема использования landmarks: они рендерятся в одноканальную или трёхканальную карту (heatmap или edge map), которая конкатенируется с входным изображением на уровне первого слоя генератора. Это даёт генератору явную пространственную подсказку, где должны находиться ключевые точки лица.

Важный технический нюанс: landmarks или 3DMM-параметры должны быть выровнены с reference image. Если исходное фото содержит лицо в профиль, а аудио генерирует параметры для фронтального вида, результат будет некорректным. Поэтому перед генерацией выполняется alignment: из reference image извлекаются начальные параметры (через face reconstruction), и все последующие параметры вычисляются относительно этого базового состояния.

Пример реализации Audio2Expression энкодера

Рассмотрим упрощённую реализацию audio-to-expression encoder на PyTorch. Модель принимает последовательность HuBERT embeddings и предсказывает 3DMM expression параметры.

import torch
import torch.nn as nn
import torch.nn.functional as F

class Audio2ExpressionEncoder(nn.Module):
    """
    Преобразует последовательность аудио-эмбеддингов (HuBERT/Wav2Vec2) 
    в 3DMM expression параметры.
    
    Архитектура: 1D CNN для локальных фич + Transformer для temporal context.
    
    Args:
        audio_dim: размерность входных аудио-эмбеддингов (768 для HuBERT-base)
        expression_dim: число 3DMM expression параметров (обычно 64)
        hidden_dim: размерность скрытых слоёв (512)
        num_layers: число Transformer layers (4)
        num_heads: число attention heads (8)
    """
    def __init__(self, audio_dim=768, expression_dim=64, hidden_dim=512, 
                 num_layers=4, num_heads=8):
        super().__init__()
        
        # 1D CNN для извлечения локальных фонетических паттернов
        # Три свёрточных слоя с увеличивающимся receptive field
        self.conv1 = nn.Conv1d(audio_dim, hidden_dim, kernel_size=3, padding=1)
        self.conv2 = nn.Conv1d(hidden_dim, hidden_dim, kernel_size=5, padding=2)
        self.conv3 = nn.Conv1d(hidden_dim, hidden_dim, kernel_size=7, padding=3)
        
        # Transformer для моделирования долгосрочных зависимостей
        # Важно: речь имеет коартикуляцию — текущая визема зависит 
        # от предыдущих и следующих фонем
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=hidden_dim,
            nhead=num_heads,
            dim_feedforward=hidden_dim * 4,
            dropout=0.1,
            activation='gelu',
            batch_first=True
        )
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
        
        # Выходной MLP: hidden_dim -> expression_dim
        # Два слоя с residual connection для стабильности обучения
        self.fc1 = nn.Linear(hidden_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, expression_dim)
        
        # Layer normalization для стабилизации
        self.ln = nn.LayerNorm(hidden_dim)
        
    def forward(self, audio_features, mask=None):
        """
        Args:
            audio_features: (batch, seq_len, audio_dim) — HuBERT embeddings
            mask: (batch, seq_len) — опциональная маска для padding
        Returns:
            expressions: (batch, seq_len, expression_dim) — 3DMM параметры
        """
        batch_size, seq_len, _ = audio_features.shape
        
        # CNN ожидает (batch, channels, seq_len)
        x = audio_features.transpose(1, 2)  # (batch, audio_dim, seq_len)
        
        # Применяем свёртки с residual connections
        x1 = F.gelu(self.conv1(x))
        x2 = F.gelu(self.conv2(x1))
        x3 = F.gelu(self.conv3(x2))
        
        # Комбинируем фичи разных масштабов
        x = x1 + x2 + x3  # (batch, hidden_dim, seq_len)
        
        # Возвращаем к (batch, seq_len, hidden_dim) для Transformer
        x = x.transpose(1, 2)
        x = self.ln(x)
        
        # Transformer обрабатывает всю последовательность с self-attention
        # Это позволяет учесть контекст: например, звук 'б' требует 
        # закрытия губ за несколько кадров до самого звука
        x = self.transformer(x, src_key_padding_mask=mask)
        
        # Предсказываем expression параметры
        x = F.gelu(self.fc1(x))
        expressions = self.fc2(x)  # (batch, seq_len, expression_dim)
        
        return expressions

# Пример использования
model = Audio2ExpressionEncoder(audio_dim=768, expression_dim=64)
audio_seq = torch.randn(2, 100, 768)  # batch=2, 100 фреймов по 20ms = 2 секунды
output = model(audio_seq)
print(f"Output shape: {output.shape}")  # (2, 100, 64)

Эта архитектура комбинирует сильные стороны CNN (локальные паттерны) и Transformer (долгосрочные зависимости). CNN слои с разными kernel sizes извлекают фонетические фичи на разных временных масштабах: kernel_size=3 захватывает ~60ms, kernel_size=7 — ~140ms. Transformer затем агрегирует информацию по всей последовательности, что критично для естественной коартикуляции.

Обучение модели требует loss-функции, которая учитывает специфику задачи:

class Audio2ExpressionLoss(nn.Module):
    """
    Комплексная loss-функция для обучения audio-to-expression модели.
    Включает reconstruction loss, velocity regularization и lip-sync emphasis.
    """
    def __init__(self, lip_indices=None, lambda_velocity=0.1, lambda_lip=2.0):
        super().__init__()
        # Индексы 3DMM параметров, отвечающих за движение губ
        # Обычно это параметры 0-15 из 64 expression параметров в FLAME
        self.lip_indices = lip_indices if lip_indices else list(range(15))
        self.lambda_velocity = lambda_velocity
        self.lambda_lip = lambda_lip
        
    def forward(self, pred_expr, target_expr):
        """
        Args:
            pred_expr: (batch, seq_len, expr_dim) — предсказанные параметры
            target_expr: (batch, seq_len, expr_dim) — ground truth параметры
        """
        # Основной reconstruction loss — L1 по всем параметрам
        recon_loss = F.l1_loss(pred_expr, target_expr)
        
        # Velocity loss — штраф за резкие изменения между кадрами
        # Вычисляем первую производную (разность соседних кадров)
        pred_velocity = pred_expr[:, 1:, :] - pred_expr[:, :-1, :]
        target_velocity = target_expr[:, 1:, :] - target_expr[:, :-1, :]
        velocity_loss = F.l1_loss(pred_velocity, target_velocity)
        
        # Lip-sync loss — дополнительный вес на параметры губ
        # Эти параметры наиболее важны для восприятия синхронизации
        lip_pred = pred_expr[:, :, self.lip_indices]
        lip_target = target_expr[:, :, self.lip_indices]
        lip_loss = F.l1_loss(lip_pred, lip_target)
        
        # Итоговый loss — взвешенная сумма компонентов
        total_loss = (recon_loss + 
                     self.lambda_velocity * velocity_loss + 
                     self.lambda_lip * lip_loss)
        
        return total_loss, {
            'recon': recon_loss.item(),
            'velocity': velocity_loss.item(),
            'lip': lip_loss.item()
        }

# Пример обучения
criterion = Audio2ExpressionLoss()
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.01)

for epoch in range(num_epochs):
    for audio_batch, expr_batch in dataloader:
        pred_expr = model(audio_batch)
        loss, loss_dict = criterion(pred_expr, expr_batch)
        
        optimizer.zero_grad()
        loss.backward()
        # Gradient clipping для стабильности — Transformer может давать взрывные градиенты
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        optimizer.step()

Velocity loss критически важен для временной когерентности. Без него модель может предсказывать корректные параметры для каждого кадра независимо, но с резкими скачками между кадрами, что создаёт эффект jittering. Lambda_velocity=0.1 — эмпирически подобранное значение, которое балансирует между точностью и плавностью.

Lip-sync emphasis (lambda_lip=2.0) усиливает внимание модели к параметрам губ. Это компенсирует тот факт, что в общем reconstruction loss параметры губ составляют лишь ~20% от всех expression параметров, но при этом являются наиболее заметными для человеческого восприятия.

Trade-off: реализм, скорость, стоимость

При проектировании talking head системы приходится балансировать между тремя ключевыми метриками: качеством (реализм, отсутствие артефактов), скоростью (latency, throughput) и стоимостью (VRAM, compute, энергопотребление).

Качество определяется несколькими факторами: точность lip-sync (измеряется через Lip Sync Error Distance, LSD — расстояние между предсказанными и ground truth landmarks губ), фотореализм (FID, LPIPS метрики), временная стабильность (отсутствие flickering, измеряется через temporal consistency metrics), сохранение идентичности (cosine similarity между face embeddings исходного и сгенерированного лица).

Современные diffusion модели достигают LSD < 2.0 пикселей на разрешении 512×512, FID < 15 на тестовых датасетах типа VoxCeleb2, identity similarity > 0.85 (cosine similarity между ArcFace embeddings). GAN-модели показывают LSD 2.5-4.0, FID 20-30, identity similarity 0.75-0.82. Разница заметна визуально: diffusion генерирует более естественные микродвижения, лучше сохраняет текстуру кожи и волос.

Скорость — критичный параметр для real-time приложений. Real-time означает latency < 100ms (порог восприятия для интерактивных систем) и throughput ≥ 25 FPS. GAN-модели на RTX 3090 достигают 40-60 FPS при разрешении 512×512, latency ~20-30ms. Diffusion модели с 50 DDIM steps — 2-4 FPS, latency 250-500ms. Для снижения latency diffusion моделей применяют:

Уменьшение числа шагов денойзинга (DDIM с 50 до 10-20 шагов, DPM-Solver)
Distillation в более быстрые модели (progressive distillation, consistency models)
Latent diffusion вместо pixel-space (работа в latent space VAE, уменьшение разрешения в 8 раз)
Quantization и pruning (INT8, mixed precision, structured pruning)

С этими оптимизациями diffusion можно ускорить до 10-15 FPS на A100, но это всё ещё далеко от real-time для интерактивных сценариев.

Стоимость складывается из VRAM (определяет минимальное железо), compute (FLOPS, определяет энергопотребление и цену облачного инференса), storage (размер модели). GAN-модель: 4-8 GB VRAM, ~100 GFLOPS на кадр, 200-500 MB веса. Diffusion: 12-24 GB VRAM, 2-5 TFLOPS на кадр (50 шагов × 40-100 GFLOPS на шаг), 2-6 GB веса.

Для облачного инференса стоимость пропорциональна compute. На AWS p3.2xlarge (V100, $3.06/час) GAN-система обрабатывает ~150,000 кадров в час ($0.00002 за кадр), diffusion — ~10,000 кадров ($0.0003 за кадр). Для минутного видео (1500 кадров) разница: $0.03 vs $0.45. При масштабе (миллионы видео в месяц) это становится значимым фактором.

Практический выбор зависит от use case. Для видеозвонков и стриминга единственный вариант — оптимизированные GAN (можно запускать на клиентских GPU, latency < 50ms). Для генерации образовательного контента, где видео создаётся один раз и просматривается тысячи раз — diffusion оправдан (высокое качество окупает медленный инференс). Для массовой персонализации (аватары для тысяч пользователей) — гибридный подход: GAN для preview, diffusion для финального рендера.

Коммерческие решения: HeyGen, D-ID, Synthesia

Рынок talking head generation представлен несколькими крупными игроками, каждый из которых использует свой технологический стек и фокусируется на разных сегментах.

HeyGen (ранее Movio) специализируется на создании видео-презентаций и маркетингового контента. Технически система основана на GAN-архитектуре с proprietary audio-to-expression модулем. Ключевая особенность — библиотека из ~100 предобученных аватаров (профессиональные актёры, снятые в студии с контролируемым освещением). Пользователь выбирает аватар из библиотеки, загружает текст или аудио, система генерирует видео.

Преимущество такого подхода — высокое качество для предустановленных аватаров (FID ~12-15, отличный lip-sync), так как модель файнтюнится на конкретном лице. Недостаток — ограниченная кастомизация. HeyGen добавил функцию Instant Avatar — загрузка своего видео (2-5 минут) для создания персонального аватара, но качество ниже, чем у студийных.

Технически HeyGen использует multi-stage pipeline: сначала audio-to-expression encoder предсказывает 3DMM параметры, затем параметры подаются в StyleGAN-based генератор, обученный на видео конкретного аватара. Для ускорения применяется model distillation — большая teacher model (1B параметров) дистиллируется в компактную student (150M), которая используется в продакшене. Это даёт 30 FPS на T4 GPU при разрешении 512×512.

D-ID фокусируется на real-time streaming и интерактивных аватарах. Архитектура основана на lightweight GAN с aggressive quantization (INT8) и pruning. Система оптимизирована для latency < 100ms, что позволяет использовать аватары в чат-ботах и виртуальных ассистентах.

D-ID использует proprietary Live Portrait technology — вместо полной генерации кадра модель предсказывает только изменения (delta) относительно reference image. Это радикально снижает compute: вместо генерации 512×512×3 пикселей генерируется sparse mask + motion vectors, которые применяются к исходному изображению через warping. Такой подход даёт 60 FPS на клиентских GPU (RTX 2060), но ограничивает диапазон движений — большие повороты головы создают артефакты.

Synthesia — наиболее амбициозный проект, нацеленный на enterprise-сегмент (корпоративное обучение, internal communications). Технологический стек включает diffusion models для высококачественной генерации и proprietary dataset из 1000+ часов студийных съёмок с профессиональными актёрами.

Ключевая фича Synthesia — multilingual lip-sync. Система не просто анимирует губы под любой аудио, но адаптирует движения под фонетику конкретного языка. Это достигается через language-specific audio encoders: вместо универсального HuBERT используется набор энкодеров, обученных на разных языках (английский, испанский, немецкий, китайский и т.д.). При генерации видео на испанском используется испанский энкодер, который лучше захватывает специфические фонемы (например, раскатистое 'r').

Технически Synthesia использует latent diffusion с conditioning на язык: language ID подаётся как дополнительный token в cross-attention. Модель обучена на multilingual датасете, где каждый актёр произносит тексты на 5-10 языках. Это позволяет модели научиться language-specific артикуляции.

Стоимость этих сервисов отражает технологическую сложность: HeyGen — от $24/месяц (10 минут видео), D-ID — $5.90 за 10 минут (pay-as-you-go), Synthesia — от $30/месяц (10 минут) до enterprise планов $1000+/месяц с custom avatars. Все три используют cloud inference (AWS/GCP), что позволяет динамически масштабировать мощности.

Выводы и перспективы

Создание ИИ-аватара из одного фото — зрелая технология с чёткими trade-off между качеством, скоростью и стоимостью. GAN-based подходы доминируют в real-time приложениях благодаря низкой latency (20-30ms) и умеренным требованиям к железу (4-8 GB VRAM). Diffusion-based модели обеспечивают superior качество (FID < 15, отличная temporal stability), но требуют 10-20× больше compute и пока не подходят для интерактивных сценариев без агрессивных оптимизаций.

Audio2Lip синхронизация через HuBERT/Wav2Vec2 → expression encoder → 3DMM параметры стала de facto стандартом. Этот pipeline обеспечивает language-agnostic lip-sync с LSD < 2.5 пикселей. Использование 3DMM-параметров вместо прямого отображения audio→pixels даёт лучший контроль и обобщение, хотя добавляет этап 3D reconstruction.

Face landmarks как control signal — более простая альтернатива 3DMM, достаточная для многих задач. Landmarks легче извлекать (MediaPipe, Dlib работают в real-time), но они теряют информацию о глубине и текстуре, что ограничивает качество при больших поворотах головы.

Коммерческие решения (HeyGen, D-ID, Synthesia) демонстрируют разные стратегии: предобученные студийные аватары vs user-generated avatars, quality vs latency, universal models vs language-specific. Рынок растёт (~40% CAGR), driven by demand в образовании, маркетинге, entertainment.

Перспективные направления исследований: consistency models для ускорения diffusion до real-time (10-20 шагов вместо 50), multimodal conditioning (не только аудио, но и текст, эмоции, стиль речи), 3D-aware generation (явное моделирование геометрии головы для robustness к поворотам), few-shot personalization (адаптация модели к новому лицу за 10-50 изображений вместо сотен).

Технически наиболее интересная проблема — temporal consistency в длинных видео. Современные модели генерируют кадры независимо или с ограниченным контекстом (5-10 предыдущих кадров), что приводит к накоплению drift в идентичности и артефактам при длительности > 5 минут. Решение требует архитектур с long-range temporal attention или explicit memory mechanisms, что пока остаётся открытой задачей.

Создание ИИ-аватара из одного фото: технический разбор talking-head моделей и Audio2Lip синхронизации