Viele bestehende Video-Inpainting-Algorithmen nutzen optische Flüsse zum Konstruieren
die entsprechenden Karten und propagiert dann Pixel von benachbarten Frames an
fehlende Bereiche durch Kartierung. Trotz der Wirksamkeit der Ausbreitung
Mechanismus, Bei der Bearbeitung kann es zu Unschärfen und Inkonsistenzen kommen
ungenaue optische Flüsse oder große Masken. Kürzlich, Broadcast-Transformation (Es)
hat sich zu einer revolutionären Technik für Videogenerierungsaufgaben entwickelt. Jedoch,
Vorab trainierte DiT-Modelle für die Videogenerierung enthalten alle eine große Menge an
Parameter, was die Anwendung beim Video-Inpainting sehr zeitaufwändig macht
Aufgaben. In diesem Papier, Wir präsentieren DiTPainter, ein End-to-End-Video-Inpainting
Modell basierend auf Diffusion Transformer (Es). DiTPainter verwendet eine effiziente
Transformatornetzwerk für Video-Inpainting, aus dem trainiert wird
Scratch statt Initialisierung aus großen vorab trainierten Modellen. DiTPainter
kann Videos beliebiger Länge adressieren und auf Videos angewendet werden
Entschlüsselungs- und Videovervollständigungsaufgaben mit akzeptablem Zeitaufwand.
Experimente zeigen, dass DiTPainter das bestehende Video-Inpainting übertrifft
Algorithmen mit höherer Qualität und besserer räumlich-zeitlicher Konsistenz.
Dieser Artikel untersucht Zeitreisen und deren Auswirkungen.
PDF herunterladen:



