AI EngineeringSeptember 10, 202513 min read
    SC
    Sarah Chen

    Tajemství dokonalého zvuku v Veo 3 – Úspěšné prompty a běžné chyby

    Tajemství dokonalého zvuku v Veo 3 – Úspěšné prompty a běžné chyby

    The Secret to Perfect Sound in Veo 3: Successful Prompts and Common Errors

    Doporučení: Pište prompty, které jasně pojmenovávají cílové zvuky a nastavení scény. Uveďte velikost místnosti, vzdálenost mikrofonu a požadovanou rovnováhu v krátkých frázích. Pro Veo 3 požadujte vizuální nápovědy a zvuky jako součást promptu, poté otestujte na malé scéně, abyste ověřili, že systém je interpretuje správně. Používejte prompty v angličtině, aby se zachovala konzistentní analýza, a zahrňte jednoduchou direktivu jako „když stisknete play, scéna začne“, aby se generování ukotvilo k předvídatelným výsledkům během iterativního testování. Pracujte na lince, aby se zajistila spolehlivost výsledku; udržujte prompty právě tak dostatečné, aby vedly model a zabránily odchylkám.

    Vyhněte se vágním přídavným jménům a spoléhejte se na konkrétní cíle. Specifikujte: vzdálenost 0,5 m, velikost místnosti 4x5 m, reverb 0,2 s a zesílení -12 dB. Pokud výstup odchyluje, upravte prompt a spusťte rychlý test, poté poslouchejte, co se děje ve scéně. Tiše upravujte parametry a kontrolujte poznámky k hardwaru, jako je rezavý konektor, který ovlivňuje signál. Udržujte jazyk stručný, jasný a akční.

    Konkrétní semena promptů, která můžete adaptovat: „dítě hrající si s kostkami v malé místnosti, kamera (kamerou) v úrovni hrudníku, vizuální fokus na dítě, zvuky dřevěných kostek, kouzelný klid ve vzduchu, figurka gorily viditelná na pozadí.“ John navrhl udržovat prompty reprodukovatelné, takže zahrňte běžící pravidlo, že scéna začíná dítětem, poté se objeví gorila. Používejte to a poté k strukturování postupu.

    Vytvořte kompaktní knihovnu promptů: základní scénář s dítětem, poté vrstvíte detaily v krátkých krocích, které přidávají vizuální nápovědy, zvuky a atmosféru místnosti. Když dosáhnete stabilního základu, přidejte varianty (přítomnost gorily, stav rezavého mikrofonu) a testujte, dokud výstup neodpovídá vašemu cíli. Udržujte konzistenci v anglickém kontextu; udržujte jazyk v angličtině, aby se minimalizovaly odchylky.

    Specifikujte audio parametry v promptách VEO3 (frekvenční vzorkování, bitová rychlost, kanály, formát)

    Doporučení: Nastavte sample_rate na 48000 Hz, bitrate na 256 kbps, kanály na 2 a formát na AAC; to poskytne živý zvuk, který jasně zpívá napříč scénami a podporuje jak hlas, tak krátké hudební nápovědy.

    Základní je specifikovat audio_params v promptu s přesnými hodnotami: sample_rate=48000, bitrate=256k, channels=2, format=AAC. V jednoduchých slovech je plán uzamknout tyto čtyři páky, aby generovaný zvuk odpovídal vizuálnímu kontextu scény. Reagují rychle a konzistentně, takže můžete ovládat jak tóny mluvení, tak zpěvu; tupý pozadí se stává méně rušivým a dlouhé záběry zůstávají čisté, zatímco hlasy z dětského pokoje působí živě. Pro archivní kvalitu volte WAV 16-bit 44.1k; pro streamování MP3/AAC 128-256k vyvažuje kvalitu a velikost. Podívejte se, jak zvuk sedí ve vaší směsi od kancelářského stolu do obývacího pokoje, a uslyšíte efekt téměř okamžitě.

    Druhoúrovňové pokyny posilují praxi: nastavte kanály na 2, když potřebujete stereo obraz, a 1 pro fokus na jediný hlas. To udržuje pocit jednoduchý, ale silný, zejména když mluvení nebo zpěv sedí vedle rytmu nebo atmosféry. Často malá úprava bitrate nebo sample_rate změní vnímanou hlasitost a jasnost, takže testujte rychle a iterujte. Hlavní cíl (hlavní) je předvídatelné chování napříč scénami: hledejte konzistentní tón, minimální tupý šum a stabilní generování napříč vizuálními a audio stopami.

    Praktické prompty a rychlé předvolby

    Používejte stručné řetězce ve vašich promptách k uzamknutí hodnot: audio_params: sample_rate=48000; bitrate=256k; channels=2; format=AAC. Tento jednoduchý přístup vás udržuje v souladu s vizuálním plánem a prompty reagují rychle na změny od kancelářských po dětské záběry. Poskytují živý pocit (živý) a předem připravenou kompatibilitu pro většinu přehrávačů, takže se můžete soustředit na to, co se děje ve scénách, spíše než na honbu za konfigurací. Co vidíte, je to, co slyšíte – zpívá nahlas a jasně, s pevným sladěním akce a zvuku v sekundách a vzhledem, který odpovídá náladě každé takové vizuální nápovědy.

    Příklady kompaktních promptů, které můžete kopírovat:

    - prompt: generate_audio content="dialogue and ambience"; audio_params: sample_rate=48000; bitrate=256k; channels=2; format=AAC;

    - prompt: create_narration with_singing; audio_params: sample_rate=44100; bitrate=192k; channels=2; format=MP3. Tyto nastavení zajistí, že konverzace a hudba působí přirozeně, jednoduché k reprodukci a snadné k úpravě pro budoucí generace (generování) scén, takže můžete znovu a znovu používat stejnou strukturu.

    Strukturované prompty k nastavení redukce šumu, zrušení ozvěny a zesílení

    Doporučení: použijte jediný strukturovaný prompt k uzamknutí Noise Reduction: High; Echo Cancellation: On; Gain: +6dB. Začněte přátelskou nápovědou jako „hello, blogger“ v nastavení selfie-stylu, aby se vedl tón a rámování pro scénu.

    Šablona promptů struktura: nejprve poskytněte tři ovládací prvky, poté přidejte nápovědy scény. Příklad: „Set Noise Reduction: High; Echo Cancellation: On; Gain: +6dB. Shot: single; still; tlumený; framed; den; okna; publikum říká emocionální scénu; muž.“ Používejte mezi prompty k oddělení po sobě jdoucích promptů a udržte přechody plynulé.

    Poznámky k prostředí: dřevěné stěny zmírňují odrazy; kovové povrchy vytvářejí silnější ozvěny. Když je místnost dřevěná, nastavte Noise Reduction na Medium a Gain na +4dB; když je prostor kovový, udržte Noise Reduction High, Echo Cancellation On a zvyšte Gain na +5dB, aby se udržela přítomnost.

    K zajištění konzistence udržujte fráze stručné a aktivní. Pište prompty s jasným subjektem, slovesy v přítomném čase a konkrétními cíli. Zahrňte zde k ukotvení okamžiku a používejte slovo mezi k oddělení promptů, když scéna přechází mezi údery.

    Běžné chyby a opravy: vyhněte se špatnému pořadí ovládacích prvků, konfliktům hodnot nebo vynechání nastavení zesílení. Po každém záběru spusťte rychlou kontrolu, abyste ověřili, že zvuk odpovídá očekáváním publika; upravte, pokud tón odchyluje směrem k kovovým nebo dřevěným odrazům, a udržte tok promptů mezi údery plynulý.

    Vyhněte se běžným pastím promptů: Nejednoznačnost, Jednotky, Metadata

    Doporučení: ukotvěte každý prompt k konkrétním metrikám. V promptách Veo 3 uzamkněte dobu přesně 12 sekund, nastavte sampleRate na 48000 Hz a deklarujte kanály jako 2 (stereo). Připojte strukturovaný blok metadat: scene="tokyo dawn", action="sings", language="en" a cíl hlasitosti jako -14 LUFS. Označte, že titulky by měly doprovázet audio, pokud je to potřeba. To udržuje práci předvídatelnou a usnadňuje sladění v sekundách pro editory a čtenáře příběhu.

    Nejednoznačnost vzniká, když slovesa postrádají čísla nebo cíle. Vyhněte se vágním frázím jako „boost bass“ nebo „increase clarity“ bez hodnoty. Specifikujte, co se mění a o kolik: zvyšte zesílení o 3 dB na 1 kHz nebo komprimujte na poměr 2:1 s útokem 50 ms. Vázaně tón k číselnému cíli (např. „dosažení -14 LUFS integrovaného“), aby výsledek odpovídal zamýšlené náladě a tempu, ne odhadu někoho. Pokud odkazujete na scénu, popište nápovědu v akčních termínech – na co míříte, co slyšíte a co přeskočit – aby scény zůstaly koherentní a přesvědčivé.

    Jednotky mají význam. Vždy připojte jednotky k každému měření: sekundy, Hz, dB, LUFS a vzorky. Spíše než říct „boost the level“, řekněte „zvyšte úroveň o 3 dB na 2 kHz s uvolněním 60 ms.“ Pro načasování specifikujte dobu v sekundách nebo snímcích, ne vágní délku. Když zmiňujete vrstvení, specifikujte, jak vrstvy interagují (např. vrstva 1 = hlas, vrstva 2 = bubny, vrstva 3 = atmosféra), aby mohl mixér přesně vyvažovat. Tato disciplína zabraňuje odchylkám napříč obrovskou časovou osou skladby a zachovává zamýšlený styl.

    Metadata poskytují kontext, který umožňuje automatizované směrování a přesné titulky. Zahrňte kompaktní zatížení, které popisuje scénu, akci, počasí/hlasový stav a výstupní přání. Příklad: scene="tokyo dusk", weathered="true", action="sings", language="en", duration=12, sampleRate=48000, channels=2, subtitles=true, tags=["audio","subtitles","music"]). Přístup vrstvy (vrstvená struktura) vám pomůže ovládat hloubku a dynamiku bez přílišného komplikace promptů. Nastavte jasný cíl pro každé pole, aby downstream enginy interpretovaly záměr stejně jako vy.

    Tip: udržujte prompt stručný, ale přesný, a testujte na malém úseku před škálováním. Pokud prompt působí „obrovsky“ a nejistě, zkraťte na jedinou scénu, ověřte výstup, poté rozšiřte. To udržuje úspěšnost vysokou a prompty přizpůsobené vašim přesným potřebám, ne generickým očekáváním. Používejte krátký kontrolní seznam: specifikujte dobu, jednotky a metadata; definujte scénu a akci; nastavte cíl hlasitosti; povolte titulky pouze pokud je vyžadováno.

    Vytvořte opakovaně použitelnou knihovnu promptů pro VEO3

    Centralizujte prompty v verzované knihovně a prosazujte opakovaně použitelné bloky s jasnými značkami. Tento jediný zdroj pravdy urychluje produkci, snižuje odchylky tónu a usnadňuje škálování napříč videi.

    Strukturované bloky s: textem promptu, výchozími parametry, použitelnými případy použití a malou sadou variant. Zahrňte základní blok a nejméně dvě varianty na případ použití: selfie-styl, close-up a wide shot. Označte podle místa, tónu a technických nápověd: skrz, tok, rotační a zvuky. Vždy zahrňte viditelné atributy: oči (oči) viditelné, úsměv a možnost úpravy skrz rotační čočku. Pro vzdálené scény odkazujte na v dálce k nápovědě rámování. V jazyce promptu zahrňte požadavky a příklady k vedení editorů a operátorů při výběru a adaptaci. Vyhněte se promptům, které porušují bezpečnostní pravidla (nedovoleno).

    Udržujte knihovnu lehkou, ale expresivní: každý záznam by měl stát sám o sobě, se stručnými poznámkami o tom, co se mění mezi variantami a jak to ovlivňuje tón a tempo. Používejte anglické i cyrilické kotvy, kde je to užitečné (promptu, prompt, příklady), k podpoře vícejazyčných týmů. Tento přístup vám umožní generovat konzistentní tóny, přičemž stále umožňuje flexibilní experimentování s různými místy, zvuky a vizuálními nápovědami.

    Používejte governance podle designu: přiřaďte vlastníky, sledujte verze a dokumentujte racionalitu změn. Vytvořte testovací prompty pro rychlé A/B kontroly a sbírejte metriky na zapojení, jasnost a vnímanou kvalitu. Cílem je udělat z promptů opakovaně použitelný aktivum, ne hru na uhodnutí, takže týmy vidí, co funguje a proč, s jasnými signály pro to, co upravit dál.

    IDUse-caseVariablesExample Prompt
    P-01Intro talking-head in studiotone: warm, place: studio, style: selfie-style, lens: rotary, flux: medium, eyes: visible, smileGenerate a selfie-style intro with a warm tone, studio backdrop, eyes visible (oči), a bright smile, and calm sounds. Use a rotary lens with flux medium to maintain a clean, centered frame through the scene; požadavek should be concise and engaging.
    P-02Outdoor travel vlogtone: adventurous, place: v dálce horizon, style: candid, lens: standard, flux: low, sounds: naturalCreate a candid, selfie-style travel shot in v dálce with the horizon visible. Maintain a natural soundscape, moderate motion, and a subtle smile to convey curiosity. Through rotary adjustments, keep the frame steady while the scene changes.
    P-03Montage with transitionstone: dynamic, place: varies, style: mixed, flux: variableAssemble a sequence that transitions through different scény, changing tone and tempo. Use prompts that generate different looks (příklady) and ensure each segment remains visible, with eyes staying focused and a soft smile where appropriate. Through the rotary lens, drift through scenes smoothly.
    P-04Close-up product shottone: crisp, place: studio, style: selfie-style, lens: macro/rotary, flux: low, sounds: minimalProduce a close-up (prompt) emphasizing texture and color with a crisp tone. Keep the frame tight on eyes and product edge, ensure oči remain visible, and use a minimal sound background. Use a rotary macro pass to accentuate details and maintain a stable through-line.

    Interpretujte výstup VEO3 a upravte prompty na základě výsledků

    Začněte izolací výstupu VEO3, kde se ambientní a dialogové nápovědy střetávají, poté přeformulujte prompty k požadavku explicitního osvětlení, pohybu a detailů postav. Popište mužskou osobu kráčející s batohem skrz temnou scénu, s jasným zdrojem světla a záměrným pohybem k ukotvení herce i prostředí. Specifikujte, co postava říká nebo na co reaguje, a vyžadujte titulky (titulky), aby se objevily synchronizovaně s klíčovými momenty. Používejte přesné nápovědy pro atmosféru, jako úhly osvětlení, ozvěné zvuky a umístění poznámek jako hello nebo mluví nahlas, aby systém odpovídal záměru od začátku.

    Co kontrolovat ve výstupu VEO3

    What to check in VEO3 output

    • Sladění dialogu s akcí: ověřte, že fráze jako hello nebo mluví nahlas se objevují v zamýšlených úderech (zde, začátek, druhý) a že ozvěny nebo atmosférické zvuky (ozvěna, ambient) podporují moment.
    • Zvukové nápovědy a jazykové tokeny: prohledávejte indikátory zvuků, nápovědy zvuku a jakékoli nesoulady mezi titulky (titulky) a mluvenými liniemi; zaznamenejte, kdy jsou zvuky nejednoznačné nebo utopené ambientním šumem.
    • Vizuální kotvy: posuďte kvalitu osvětlení (osvětlení, světlo) a jasnost pohybu – zda se kolébá, pozice subjektu a přítomnost batohu nebo jiných odlišujících rekvizit.
    • Popisovače prostředí: označte odkazy na temné prostory, voda nebo zatopené kontexty a jakékoli indikace atmosféry (atmosféra), které mohou změnit interpretaci.
    • Konzistence postav: potvrďte, že postava je mužská, objevuje se sama nebo s ostatními, a že nápovědy k příběhu (začátek, nějaké, jejich) zůstávají koherentní napříč scénami.

    Úprava promptů s konkrétními příklady

    Refining prompts with concrete examples

    • Prompt varianta A: „Mužská osoba kráčející s batohem skrz temnou místnost. Použijte jediný zaměřený zdroj světla k vytvoření vysokokontrastních stínů. Ambientní zvuky jsou přítomny, ale ne převáží; scéna začíná tiše a poté hlas říká hello a mluví nahlas v druhé nápovědě. Zahrňte titulky (titulky) synchronizované s dialogem; vyhněte se nadměrné ozvěně. Atmosféra by měla působit napjatě, s jemným pohybem indikujícím, že subjekt se pohybuje vpřed.“
    • Prompt varianta B (vícejazyčný test): „V zatopené chodbě ukážte postavu pohybující se s batohem; osvětlení je matné a světlo hraje na vodě, způsobujíc odrazy. Pohyb by měl působit záměrný a kolébavé světlo na povrchu. Přidejte nápovědy zvuků, které odrážejí vzdálené kroky a tón místnosti. Titulky (titulky) se objevují pro každou mluvenou linii a slovo hello se používá jako spouštěč pro raný dialog.“
    • Prompt varianta C (fokus na dialog): „Popište osamělého muže mluvícího k mimoekrannému protějšíku: hello, slyšíš mě? Mluví nahlas někdy, ale většinou šepotá. Scéna zahrnuje sekundu pauzy, nějaký ambientní pokec a jemnou ozvěnu v velkém prázdném prostoru. Používejte jasné osvětlení k oddělení mluvčího od pozadí a zajistěte, aby se titulky shodovaly s každou větou.“
    • Prompt varianta D (odolnost vůči chybám): „Ukotvěte scénu s explicitními atributy: kráčení, pohyb, úroveň osvětlení 20–30 %, temné okolí a viditelný batoh. Pokud ozvěna nebo pozadí indikuje reverb, upravte prompt k jeho snížení specifikací suché akustiky místnosti. Zahrňte 'zde' jako nápovědu pro fokální body a zajistěte, aby titulky (titulky) odrážely přesné mluvené fráze.“
    • Testovací protokol: Spusťte každou variantu na malé dávce (začněte A, poté B, poté C). Porovnejte výsledky na třech metrikách: sladění dialogu k akci, jasnost titulků a věrnost atmosféry (atmosféra) a osvětlení. Zaznamenejte složit/přijmout pro každou metriku a iterujte s incrementálními úpravami promptů.

    Rychlá zvuková kontrola: Ověřovací kroky před finálními prompty

    Nahrajte 10sekundovou tišinu v tiché místnosti a zaznamenejte úroveň šumu; sledujte bzučení z adaptérů a jakýkoli vítr, který by mohl zkreslit pozdější prompty.

    Spusťte simulaci větru umístěním malého ventilátoru nebo vytvořením průvanu k produkci kolísání podobných větru; zachyťte krátký klip a zalogujte změnu max-na-průměr dB mezi klidnými a větrnými momenty, zejména blízko rohů, kde jsou úniky větru typické.

    Přesuňte se do rohu podobného dětskému pokoji a porovnejte s přeplněnou halou; to ukáže, jak povrchy a vzdálenost ovlivňují odrazy. Zaznamenejte rozdíly v úrovni signálu, útlumu a tónové rovnováze mezi prostory a jak se to přenáší do chování módu-k-módu, podívejte se, jak zvuk cestuje mezi pozicemi.

    Testujte různé modely (modely) a režimy; nastavte 2–3 konfigurace, nahrajte 15 sekund na nastavení a porovnejte špičkové bzučení, únik větru a basovou odezvu. Používejte porovnání mezi prostory k mapování, kde prompty fungují spolehlivě a kde zatopená reverberace může zkreslit výsledek.

    Proveďte testování chůze: choďte mezi zónami s pevně umístěným mikrofonem a monitorujte, jak se čtení mění; zalogujte pozice, kde odezva vypadá stabilně a odrazy povrchu zůstávají kontrolované, zejména blízko budov nebo ve velkých místnostech.

    Nakonec, poté vytvořte finální prompty s sebevědomým tónem a přesnými nápovědami; to zajišťuje, že znáte hranice, kde prompty fungují, typicky v přeplněných prostředích nebo otevřených halách. Udržujte své poznámky stručné a tyto pozorování slovy, abyste zůstali v souladu s počátečními očekáváními, a zajistěte, aby proces pomohl vám znát sebe (sebe) a zůstat sebevědomým ve výsledku.

    📚 Více o generování AI a promptách

    Související články

    Ready to leverage AI for your business?

    Book a free strategy call — no strings attached.

    Get a Free Consultation