
Zaslal: st 14. leden 2026 14:55 Předmět:
S tou fyzikou to není až tak úplně pravda. Sora2 ji dělá celkem dobře... Ale spíš s celou scénou. Ty difuzní modely se učí na základě existujících videí a neumí si vydedukovat, že v dostatečně dlouhém videu, kde se něčím prochází a otáčí se zpět, že si musí pamatovat, co tam bylo předtím...
Ty stejné archetypy postav jsou dány způsobem fungování těch modelů podle textových popisů. Naučí se, že to či ono je beautiful woman a všechny tváře z takto otagovaných videí zprůměrují. Některé modely, např. Veo3 od Googlu, dají při stejném promptu prakticky shodný výsledek bez jakéhokoliv efektu náhody. Takže prompt "beautiful woman is walking down the beach" ti dá tu stejnou ženu, v tom samém oblečení na té samé pláži s minimálními variacemi.
Jak vidno zárukou ani není delší prompt a la "beautiful young woman with soft features and long blonde wavy hair named Jane"...
A to, že to úplně nefunguje je jasné, když chceš, aby ti např. Gemini toho modela o trochu pootočil. Tvůj prompt ignoruje a lže ti, že to udělal. To samé, když požádáš o 5°, 10° nebo 30°. Udělá ti ho zboku, občas i 3/4 shot. Prostě neumí jemně doladit změny. Dá se to ale přenést na to generování osob. Kvůli tomu, že je zaměřený na textový popis na základě něhož průměruje a lidé většinou chtějí hezké věci, tak se cyklí jen v několika druzích tváře. Nelze to nijak jemně doladit.