Tài liệu này sẽ giúp bạn hiểu hơn về mô hình AI tạo video đỉnh nhất thế giới ở thời điểm hiện tại. Từ việc hiểu hơn bạn sẽ tiết kiệm thời gian, công sức và đặc biệt là tiền bạc, khi mà cái giá phải trả cho công cụ là không hề rẻ tý nào.
Ok bắt đầu nha!!
Giới thiệu về Veo 3
Veo 3 là mô hình tạo video mới nhất của Google, mang đến chất lượng hình ảnh được cải thiện đáng kể, khả năng tuân thủ lời nhắc tốt hơn và tính năng đồng tạo âm thanh.
Các tính năng chính của Veo 3 bao gồm:
- Biến văn bản thành Video (Text to Video): Tạo video từ văn bản với khả năng tích hợp cả lời nói và âm thanh môi trường.
- Biến khung hình đầu tiên thành Video (Frames to Video: First): Chuyển đổi một khung hình đầu tiên thành video hoàn chỉnh, đi kèm với âm thanh môi trường.
Lưu ý quan trọng:
Hiện tại, Veo 3 chưa tương thích với các tính năng như:
- Khung hình đầu tiên + khung hình cuối cùng (Frames to Video: First + Last)
- Điều khiển máy ảnh (Camera Control)
- Mở rộng (Extend)
- Khả năng tạo video từ các thành phần (Ingredients to Video)
Do đó khi bạn muốn sử dụng các tính năng này, hệ thống sẽ tự động chuyển bạn trở lại các mô hình Veo 2.
Có những cách nào để có thể trải nghiệm Veo 3?
Hiện tại, nếu bạn không phải lập trình viên thì về cơ bản có 2 phương pháp chính để bạn có thể trải nghiệm và tận dụng sức mạnh của Veo 3:
- Sử dụng thông qua Gemini: Thông qua giao diện tích hợp của Gemini, bạn có thể tương tác trực tiếp với Veo 3 để tạo video. Gemini đóng vai trò là cầu nối giúp bạn nhập lời nhắc, tinh chỉnh ý tưởng và nhận về các sản phẩm video được tạo bởi Veo 3. Điều này cho phép bạn khai thác khả năng của Veo 3 trong một môi trường trò chuyện và sáng tạo linh hoạt.
- Sử dụng thông qua Flow: Flow là công cụ làm phim AI được thiết kế đặc biệt để khai thác tối đa các mô hình tiên tiến của Google DeepMind, bao gồm cả Veo 3, Imagen và Gemini. Flow cung cấp một quy trình làm việc trực quan và mạnh mẽ để tạo ra các clip điện ảnh và kết nối chúng thành những câu chuyện mạch lạc.
- Text to Video: Biến đổi ý tưởng văn bản của bạn thành video hoàn chỉnh, bao gồm cả lời nói và âm thanh môi trường tự động được tạo.
- First Frame to Video: Bắt đầu từ một khung hình đầu tiên, Veo 3 sẽ tự động mở rộng và tạo ra phần còn lại của video, đồng thời bổ sung âm thanh môi trường phù hợp.
Ngoài ra, có một số bạn hỏi là dùng điện thoại có được không? Câu trả lời là được nhưng sẽ phức tạp hơn rất nhiều lần. Bạn cứ xem hướng dẫn dưới đây là sẽ rõ!!
Hướng dẫn chi tiết cách đăng ký trải nghiệm Veo 3 với giá 0 đồng.
Nếu chưa đăng ký hãy đăng ký ở link này: https://hub.bachdyon.com/dashboard/#/nc/form/4d8c7b9d-6753-480c-886b-54b7cdde2a03
Khi nào nên dùng Gemini và khi nào nên dùng Flow?
Cả Gemini và Flow đều là những "công cụ" chưa hoàn hảo của Google khi đem ra so sánh với ChatGPT và Sora. Lưu ý đây là so sánh của mình khi trải nghiệm sử dụng 2 công cụ chứ không phải 2 mô hình.
Lý do chính có thể thông cảm được cho Google đó là 2 công cụ đều rất mới và họ có thể cải thiện dần điều đó theo thời gian. Tuy nhiên nếu bạn muốn dùng Veo 3 - mô hình độc quyền cho đến thời điểm hiện tại của Google thì đây là một số lưu ý:
- Flow không hỗ trợ tiếng Việt, bạn phải đổi sang tiếng Anh, Gemini thì hỗ trợ cả 2 ngôn ngữ.
- Vì Flow chỉ hỗ trợ tiếng Anh nên nếu prompt của bạn là những đoạn hội thoại 2 người + có trao đổi bằng tiếng Việt thì sẽ bị Flow từ chối. Nếu bạn cần những đoạn dài hơi như vậy thì nên dùng Gemini.
- Gemini ở bản Google AI PRO sẽ chỉ được tạo khoảng 8-10 video trong 24h, nếu bạn tạo chạm đến ngưỡng này thì nó sẽ dừng việc trải nghiệm lại trong 12 - 24h kế tiếp.
- Khi dùng Gemini hoặc Flow sẽ có tỷ lệ nhất định bị lỗi, cách duy nhất là kiểm tra prompt và thử lại.
- 1-2% video bị lỗi chân tay, cử chỉ.
- 5% khi quá tải nó sẽ tự động chuyển về Veo 2.
- 10% bạn đang dùng Veo 3 nhưng không ra tiếng, thực tế do website bị lỗi, bạn cần tải lại trang và bấm nghe lại, hoặc thử tải video về máy để nghe xem có âm thanh hay không.
- 10% chúng ta chọn tính năng không tương thích với Veo 3, nó sẽ tự nhảy về Veo 3. Xem bảng tính năng ko tương thích và lưu ý ở đầu bài viết.
- 40% mặc dù chúng ta đã đề cập lời nói tiếng Việt hoặc lời thoại tiếng Việt... nhưng Gemini và Flow vẫn trả kết quả nhân vật nói tiếng Anh. Có thể đây là một tính năng của Google để chặn người dùng bên ngoài Hoa Kỳ sử dụng mô hình của họ trong giai đoạn thử nghiệm (giả thiết của mình).
Có 2 giải pháp tạm thời:- 1 là thử lại với prompt khác, thử thay thế từ ngữ xem kết quả có thay đổi hay không.
- 2 là thử chuyển prompt sang tiếng Anh, giữ nguyên nội dung lời thoại bằng tiếng Việt.
Các tính năng khác nhau trong Flow, nên được dùng thế nào cho chuẩn?
Đây là bảng tương thích và không tương thích của các tính năng, bạn sẽ cần ghi nhớ nó để sau này đỡ bị nhầm và không được đúng như kỳ vọng:
Khả năng | Fast (Veo 2) | Quality (Veo 2) | Highest Quality (Veo 3) |
---|---|---|---|
Text to Video - Từ văn bản sang video | ✅ | ✅ | ✅ (w/ SFX, Speech) |
Frames to Video: First - Tạo video từ các khung hình: Khung hình đầu tiên | ✅ | ✅ | ✅ (w/ SFX) |
Frames to Video: First + Last - Tạo video từ các khung hình: Khung hình đầu tiên + Khung hình cuối cùng | ✅ | ❌ | ❌ |
Camera Control* - Điều khiển camera | ✅ | ❌ | ❌ |
Extend - Kéo dài video | ✅ | ❌ | ❌ |
Jump To - Chuyển đến một cảnh mới | ✅** | ✅ | ✅ |
Ingredients to Video - Tạo video từ các thành phần | ❌ | ✅ | ❌ |
Ok. Bây giờ đi vào mục chính đó là 3 tính năng mà nhiều người hay sử dụng nhất.

- Từ văn bản sang video tương thích với Veo 3, bạn có thể dùng nó đa mục đích, có thể tạo giọng nói và hiệu ứng cùng lúc, nhưng nó sẽ không thể cố định nhân vật cho bạn.
- Tạo video từ các khung hình chỉ có thể sử dụng First Frame (ảnh đầu tiên) với Veo 3, nó sẽ không có giọng nói và chỉ có sound Effect. Thông thường bạn nên dùng nó để tạo các cảnh quay không có lời thoại, ví dụ như mẫu thời trang, mẫu thiết kế nhà ở..... nói chung là không cần có giọng nói trong đó.
- Tạo video từ các thành phần chỉ tương thích với Veo 2 Quality, không tương thích với Veo 3 nên kết quả tạo ra sẽ câm như hến (chẳng có âm thanh gì cả). Nhưng đổi lại bạn có thể thả ảnh của các nhân vật, ảnh bối cảnh, ảnh đồ vật và nó sẽ tạo cảnh quay có tất cả những thứ đó theo mô tả của bạn -> thích hợp để làm video đồng nhất nhân vật.
Một số prompt mẫu cho bạn tham khảo
A lively Vietnamese market. A young Vietnamese, cheerful woman in a colorful floral dress holds a microphone while interviewing a thin, shirtless Vietnamese man carrying a heavy sack over his shoulder and holding a cigarette. He’s locally known as the “Thần Khói” of the market.
The woman asks with a bright smile in Vietnamese:
– "Anh ơi, em nghe anh được mệnh danh là thần khói của làng này, vậy anh hút thuốc vậy cho nó ngầu ạ?"
The man chuckles and answers instantly:
– "Không em ơi, hút thuốc không phải là ngầu, hút thuốc là để đi cầu đỡ hôi!"
They both burst into laughter, echoing through the bustling market
Cảnh quay:
Một bác nông dân lớn tuổi (khoảng 70 tuổi) đang được phỏng vấn ở ngã tư làng quê. Trời chiều, nắng nhẹ, không khí quê yên bình. Bác đội nón lá, mặc áo sơ mi cũ ca-rô, quần kaki bạc màu, dép tổ ong. Gương mặt hiền hậu, chất phác.
Hành động chính:
Bác đứng nghiêm chỉnh, hướng mặt về phía micro (micro cầm tay do người phỏng vấn đưa vào). Bác cười móm mém, ánh mắt ngạc nhiên và thích thú, vừa nói vừa nhấn nhá tay. Thỉnh thoảng bác gãi đầu hoặc chỉ tay lên trời cho sinh động.
Khung cảnh xung quanh:
Sau lưng bác là ngã tư nhỏ ở nông thôn, có xe máy chạy qua, một vài cây chuối, cột điện xiêu vẹo, nền đất hoặc đường bê tông nứt nhẹ.
Có vài tiếng gà gáy, tiếng người nói chuyện từ xa, cảm giác thật như đang ở quê.
Hiệu ứng hình ảnh:
Máy quay rung nhẹ như đang cầm tay phỏng vấn thật.
Ánh sáng vàng dịu của hoàng hôn, có thể có hiệu ứng ánh nắng chiếu từ phía bên trái.
Lời thoại của bác, nói bằng tiếng Việt:
“Tôi năm nay 70 tuổi rồi mà không nghĩ là AI nó làm được thế này. Chính tôi cũng là AI tạo ra chứ có phải thật đâu! Bạn nào mà muốn làm được như tôi thì học ngay chỗ thầy Bách Đì on nha!”
Cảnh quay:
Selfie, quay trong văn phòng sáng sủa, tông trắng – kem – xám hiện đại. Ánh sáng tự nhiên từ cửa sổ chiếu vào, tạo cảm giác tươi mới đầu ngày.
Một chị gái người Việt Nam khoảng U40, ăn mặc công sở nhưng trẻ trung (áo blouse xanh dương nhạt, tóc buộc đuôi ngựa). Gương mặt rạng rỡ, mắt long lanh.
Khung cảnh xung quanh:
Có thể thấy một vài giấy note dán quanh bàn, cốc cà phê đang uống dở, sổ tay mở hé. Tất cả gợi cảm giác người thật việc thật – chị ấy đang ứng dụng AI hằng ngày và cực kỳ hứng thú với nó.
Hành động chính:
Chị ngồi trước máy tính xách tay đang mở trình duyệt với hình ảnh AI giữa màn hình. Tay phải cầm điện thoại selfie, khuôn mặt hướng về phía điện thoại, nói với giọng phấn khích.
Lời thoại bằng tiếng Việt – tốc độ nói nhanh, vui, mắt mở to, miệng cười rõ:
""Từ lúc học AI của Bách ấy hả, chị mới biết là ChatGPT nó làm được đủ thứ luôn! Trời ơi, thật sự chưa bao giờ nghĩ là thế giới mình sống nó lại như thế này luôn á! ""
Scene Description:
A 35-year-old man, Vietnamese, fit and casually dressed in a polo or rolled-up shirt, sits at a desk in a small office inside his dental clinic. His laptop screen shows Make.com open. The setting is bright with natural daylight coming from a nearby window with small green tree. Around him are dental brochures—clearly a working clinic.
The camera is handheld, slightly shaky, with a 45-degree angle shot. He turns toward the camera with an enthusiastic, slightly surprised expression—like someone who’s just discovered a game-changing tool.
Main Action:
He talks quickly, smiling, pointing at the screen or tapping the desk for emphasis. His face shows a mix of excitement and relief—this tech is clearly saving him time and effort in running the clinic.
He is talking in Vietnamese, fast and real:
“Từ lúc học AI với tự động hóa của thầy Bách là mấy việc quản lý lịch hẹn, chăm sóc khách… mình để AI lo gần hết. Không học chắc còn loay hoay làm tay hết ngày!”
Scene Description:
A Vietnamese female anchor in her early 30s wears a light turquoise traditional Ao Dai with a decorative floral brooch. Her hair is straight and neatly styled. She sits upright at a modern anchor desk. Behind her is a digital cityscape at night, with soft, animated lighting and subtle graphical elements, giving the feel of a high-tech, forward-looking newsroom.
She looks directly into the camera with calm composure and confident eyes. Studio lighting evenly highlights her face, emphasizing a poised and professional presence.
Monologue (news anchor tone, focused on land investment):
“Hôm nay 27/05/2025, phát hiện một mảnh đất hiếm hoi ngay trung tâm thành phố Hà Nội với diện tích hơn một trăm mét vuông có giá chưa đến 10 tỷ đồng"
Scene Description:
A Vietnamese female anchor in her early 30s wears a light violet traditional Ao Dai with a decorative floral brooch. Her hair is straight and neatly styled. She sits upright at a modern anchor desk. Behind her is a digital cityscape at night, with soft, animated lighting and subtle graphical elements, giving the feel of a high-tech, forward-looking newsroom.
She looks directly into the camera with calm composure and confident eyes. Studio lighting evenly highlights her face, emphasizing a poised and professional presence.
Monologue (news anchor tone, focused on land investment):
“Hôm nay 27 tháng 05, 2025, phát hiện một mảnh đất hiếm hoi ngay trung tâm thành phố Hà Nội với diện tích hơn một trăm mét vuông có giá chưa đến 10 tỷ đồng."
A realistic fashion video of a young woman standing barefoot in a cozy, softly lit kitchen setting. She is wearing a teal-colored cotton pajama set with lace details near the shoulders and fitted capri pants. Her long dark hair is styled in loose waves. She leans gently on a white kitchen counter with gold handles, smiling warmly. Natural daylight filters through sheer white curtains in the background. Camera slowly pans from head to toe to show fabric fit and comfort. Soft, calm atmosphere. 4K resolution, smooth camera motion, real-life fabric folds.
A realistic fashion video of a young woman standing barefoot in a minimalist studio with a light gray background. She is wearing a sleek black satin slip dress with thin spaghetti straps, moving slightly to show the silky texture and how it flows with her body. Her long hair is straight and flowing naturally. The camera slowly pans from head to toe, with occasional close-ups on the fabric and smooth skin highlights. Elegant and soft lighting to enhance the sheen of the dress. 4K, high fashion style, graceful poses.
A magical transformation video scene inside an elegant bridal showroom. The camera starts with a close-up of a sparkling, luxurious white wedding dress on a mannequin under soft pink lighting. Sparkling lights begin to swirl around the dress, creating a glowing magical effect. Slowly, the mannequin disappears and a beautiful bride appears in its place, wearing the same glittering gown with a radiant crown. She slightly moves and smiles gracefully, as if just transformed by magic. The camera slowly pans around her to show off the gown’s details, with cinematic sparkles and glowing particles fading into the background. 4K quality, slow motion, fantasy-like lighting, elegant and emotional atmosphere.
In a luxurious modern bedroom with wood-paneled walls and large windows, a young Vietnamese woman of average height (around 165 cm / 5’5”) walks in barefoot, wearing a deep red silk nightdress with thin straps. She moves gracefully to the bed and gently bends forward at the waist to arrange the pillows. Her pose is naturally proportioned to the bed — the bed height reaches just above her knees. The satin fabric softly flows along her silhouette, revealing her long legs and back in a tasteful, elegant manner. Her hair falls forward as she adjusts the pillows with care. The camera captures her from a low side angle, showing natural human scale, accurate furniture ratio, realistic posture, and soft cinematic lighting. 4K, elegant, intimate tone.
In an ancient Chinese marketplace, a scruffy beggar with messy hair and torn robes suddenly jumps onto a wooden crate in the center of the bustling crowd. Traditional-dressed townspeople stop, surprised and curious, gathering around him. With great energy, the beggar throws his hands up and shouts loudly in Vietnamese: "Tối nay sale sập sàn shopee mùng 6/6 mọi người ơi, ghé thăm shop ngay nhé!!!"
The crowd bursts into cheerful laughter, enjoying the scene. Slowly, the Shopee logo and the phrase “6.6 SALE – BIGGEST DISCOUNT EVER!” fade in at the top center of the screen with a glowing effect.
Add warm daylight, slight slow-motion during the logo reveal, and cheerful background ambiance.
Scene description:
Setting: A typical Vietnamese street corner in Bình Định. It’s early morning. The scene is lively but grounded—slightly hazy sunlight, scooter sounds in the background. Next to a small local noodle shop with a signboard saying "Phở bà Thúy – 43 Cầu Gió", there’s a gas station with rusty signage, a green fuel dispenser, and parked scooters.
Main character: A realistic chubby bear, with glossy, well-textured fur (visible down to individual strands). The bear is sitting calmly on a small red plastic stool, wearing a loose tank top with military-style camo (áo ba lỗ dằn di). It’s holding chopsticks in one paw and slurping a bowl of phở with obvious delight.
Action: The bear lifts noodles from the steaming bowl, blows gently, and slurps them. Occasionally looks at the camera, then gives a contented nod. The camera should zoom slightly to capture its expression, with visible steam from the bowl rising.
Audio/Lip sync line, spoken in Vietnamese:
"Phở bà Thúy, 43 Cầu Gió đúng là ngon. Ai đi qua Bình Định nhớ thử ngay nha!"
The voice should be deep, slightly humorous, as if dubbed over, adding charm to the bear’s personality.
Camera movement: Start with a wide angle capturing the street setting. Then slow zoom-in to focus on the bear eating. End with the bear turning slightly to camera and delivering the line.
📍 Setting
A luxurious and cozy indoor setting, possibly in a softly lit studio.
A wooden table is placed in the center with a beautifully decorated birthday cake and a fresh bouquet of flowers.
👩🦰 Main Character
A 26-year-old Vietnamese female MC, with an elegant and charming appearance.
She is wearing a traditional red Vietnamese Áo Dài, delicately embroidered to reflect elegance and cultural pride.
Her voice is warm and expressive, and she maintains friendly eye contact with the camera.
🎬 Actions and Expression
The MC is either standing or sitting beside the birthday cake table.
She smiles gently, with her hands clasped together in front as a gesture of respect and sincerity.
🗣 Voiceovers:
"Em xin phép được thay mặt ban quản trị Công ty Toàn An, gửi đến anh Hải lời chúc mừng sinh nhật thân thương nhất. Cảm ơn anh vì đã luôn là một người đối tác, người anh đầy uy tín và nhiệt huyết."
As she finishes speaking, she gives a slight nod and maintains a warm smile.
A comedic and absurd scene set in rural Vietnam, around the year 1900.
A white man is overdressed in flamboyant 18th-century European aristocratic fashion — a velvet vest, a large ruffled collar, tight white breeches, and shiny black shoes. He struggles to walk along the muddy edge of a rice field. The background shows a typical Vietnamese countryside: flooded rice paddies, banana trees, crooked utility poles, and small thatched huts beneath a gloomy sky.
With each step, his fancy outfit gets dirtier. Eventually, he approaches a large water buffalo plowing the field. He stops, places his hands on his hips, frowns, and scolds the buffalo in an overly serious, parental tone:
“Ráng mà lo học đi con, không là không có đất cắm dùi đâu!”
The buffalo slowly lifts its head and blinks, giving him a blank yet oddly thoughtful expression, as if trying to comprehend the statement.
Suddenly, a young woman’s bright, energetic voice cuts in, only woman in this screen:
“Chỉ từ bốn trăm chín mươi triệu, sở hữu ngay nền đất mặt tiền đường liên xã – pháp lý rõ ràng, thanh khoản cực nhanh!”
Then, the scene unexpectedly cuts back to the white man and the buffalo, still frozen in their last pose.
The man stares blankly, his mouth slightly open. The buffalo remains still, both looking as if they just heard the ad and are trying to make sense of it.
The silence lingers.
A breeze passes.
A distant rooster crows.
Scene 1 – Opening Frame (Vintage Comedy Style):
Set in rural Vietnam, around 1900. A comedic and absurd juxtaposition unfolds.
A white man, completely out of place, is dressed in extravagant 18th-century European aristocratic attire: a deep red velvet waistcoat with gold embroidery, an oversized ruffled white collar, tight ivory breeches, and polished black shoes. His powdered wig sits awkwardly atop his head. He awkwardly stumbles along a narrow, muddy dike bordering a flooded rice paddy.
The background captures the essence of the Vietnamese countryside: cloudy skies, misty banana trees swaying in the wind, crooked electric poles made of bamboo, and distant thatched huts. A couple of chickens run by. Light VHS static and sepia-toned filters give the whole scene a retro, nostalgic look.
Each step makes his outfit filthier — mud splashes up his breeches, one shoe gets stuck. Finally, he stops in front of a massive water buffalo, lazily plowing through the field. Placing his hands sternly on his hips like a disappointed school principal, he raises his voice in perfect, overly formal Vietnamese:
Dialogue (spoken with a dramatic, scolding tone):
“Cố mà lo học đi con, không là không có đất cắm dùi đâu!”
The buffalo pauses, lifts its head slowly, and gazes at the man with a blank yet oddly philosophical expression, as if genuinely pondering the statement. A comedic beat of silence follows.
Scene 2 – Sudden Commercial Twist (Color Pops, Modern Energy):
Out of nowhere, the footage cuts to a high-energy modern Vietnamese saleswoman standing confidently on a subdivided plot of real estate.
She wears a sleek red business dress and matching heels. Her hair is neatly tied back, and she holds a clipboard. Behind her are clear signs of a real estate development: banners, neatly arranged plots, and people surveying land. Her tone is cheerful and assertive, clearly a practiced sales pitch:
Saleswoman (spoken brightly, with sales energy):
“Ôi dời ơi, tưởng gì! Đất nền Long Khánh chỗ em đầy, pháp lý đầy đủ, thoái mái cắm dùi nha anh! Liên hệ ngay em Mai để được tư vấn!”
Cheerful Vietnamese pop music begins faintly in the background, as if a real estate ad just hijacked the video.
Scene 3 – Deadpan Reaction (Frozen Absurdity Returns):
Abruptly, we cut back to the first scene — but now both the white man and the buffalo are frozen mid-motion, mouths slightly agape, eyes wide open.
The man looks confused, his aristocratic dignity shattered. The buffalo, too, stares forward as if they both just heard the ad echo across time and space. No one moves. The absurdity lingers in comedic silence, like a glitch in the matrix of history.
Một số lưu ý từ Google
Flow không chỉ tạo các video đơn lẻ, nó có một tính năng khác gọi là Scenebuilder
Khi bạn tìm thấy một đoạn clip ưng ý, bạn có thể thêm nó vào Scenebuilder để dễ dàng tạo ra cảnh tiếp theo, với sự hỗ trợ của Gemini giúp duy trì tính nhất quán giữa các cảnh.
Bạn có hai lựa chọn để tiếp tục câu chuyện:
- Extend: tiếp tục hành động một cách liền mạch. Flow sẽ sử dụng 24 khung hình cuối cùng từ cảnh trước để tạo sự chuyển tiếp mượt mà sang cảnh tiếp theo.
- Jump to: chuyển sang một cảnh mới nhưng vẫn giữ được ngữ cảnh từ khung hình cuối cùng. Ví dụ: bạn có thể đưa nhân vật đến một tình huống hoàn toàn mới nhưng vẫn giữ được phong cách hình ảnh từ cảnh trước.
Mẹo nhỏ: Scenebuilder sẽ đặt lại - reset khi bạn thoát khỏi dự án, nhưng bạn luôn có thể tìm lại tất cả clip đã tạo trong phần clips view. Tính năng lưu trạng thái Scenebuilder sẽ được bổ sung sớm.
Làm thế nào để tận dụng tối đa Flow?
Dưới đây là 3 điều cần nhớ để đạt hiệu quả tốt nhất khi sử dụng Flow:
1. Chuẩn bị “nguyên liệu” thật tốt
Các nguyên liệu rõ ràng, dễ nhận diện sẽ giúp mô hình hiểu rõ nội dung bạn muốn thể hiện. Khi bạn sử dụng “Ingredients to Video” (Tạo video từ các thành phần) và thêm đối tượng (người, con vật, vật thể...) hoặc sản phẩm, hãy đảm bảo rằng chúng có nền đơn giản hoặc đã được tách nền để giúp mô hình xử lý tốt hơn.
2. Tránh hướng dẫn mâu thuẫn, xung đột với nhau
Prompt bằng văn bản của bạn nên tham chiếu trực tiếp đến các khung hình hoặc nguyên liệu cụ thể. Đối với “Ingredients to Video”, bạn có thể chỉ định một phong cách hoặc tối đa ba yếu tố như đối tượng, vị trí hoặc đồ vật.
Lưu ý:
- Tham chiếu về vị trí và phong cách nên tránh thêm đối tượng phụ (trừ khi bạn thực sự muốn).
- Hãy giữ phong cách nhất quán giữa các nguyên liệu để việc ghép nội dung được liền mạch.
3. Dùng Gemini hỗ trợ khi bạn không biết viết Prompt
Nếu bạn không biết viết prompt hãy đưa ý tưởng cho Gemini. Nếu tạo video chưa được ưng ý, hãy điều chỉnh prompt lại của bạn với Gemini! Là người đăng ký gói Google AI Pro, bạn có quyền truy cập vào các mô hình Gemini mạnh nhất. Truy cập gemini.google.com, gửi prompt, hình ảnh hoặc video và nhờ Gemini viết lại prompt mới, gợi ý ý tưởng, và nhiều thứ khác nữa - Cá nhân mình thấy Gemini tệ hơn ChatGPT nên mình dùng ChatGPT.
Lưu ý khi tạo video có âm thanh với Veo 3
Trong bản cập nhật mới của Veo 3, người dùng đã có thể thêm hiệu ứng âm thanh, tiếng ồn nền và trong một số trường hợp là cả giọng nói vào video AI. Việc này được thực hiện bằng cách lồng ghép mô tả âm thanh trực tiếp vào phần prompt đầu vào. Ví dụ: “có thể nghe thấy tiếng xe kem vang lên ở phía sau” hoặc “vị thuyền trưởng quay về phía đại dương và nói: 'chúng ta sẽ ra khơi vào lúc bình minh!'”.
Tuy nhiên, đây là một tính năng thử nghiệm và vẫn còn một số hạn chế cần lưu ý:
- Tính năng chỉ áp dụng trên Veo 3.
- Giọng nói chỉ khả dụng trong chế độ Text to Video.
- Và âm thanh có thể không được tạo ra trong một số trường hợp nhất định.
Người dùng được khuyến khích gửi phản hồi bằng cách sử dụng nút cờ trong menu ba chấm để đội ngũ phát triển tiếp tục cải thiện tính năng này.
Chính sách người dùng của Flow
Flow được thiết kế nhằm mang lại trải nghiệm an toàn và thú vị cho tất cả người dùng. Do đó, người dùng không được phép cố ý tạo ra nội dung gây hại, bất hợp pháp hoặc không phù hợp. Ví dụ, Flow có các cơ chế bảo vệ đối với trẻ vị thành niên, và một số yêu cầu nhất định có thể bị từ chối xử lý.
Để biết chi tiết hơn về các loại nội dung bị cấm và chính sách sử dụng, bạn có thể tham khảo Generative AI Prohibited Use Policy của nền tảng.
Nếu bạn gặp phải vấn đề bất ngờ hoặc bị chặn không rõ lý do, hãy gửi phản hồi cho đội ngũ phát triển thông qua nút cờ hoặc menu ba chấm ở góc phải phía trên giao diện. Những góp ý này sẽ giúp Flow cải thiện sản phẩm tốt hơn.
Bài viết chi tiết thế này xứng đáng có nhiều lượt yêu thích hơn đúng không ạ?
Hãy Follow Bách Dyon trên facebook và các nền tảng khác để nhận được những cập nhật mới nhất và những hướng dẫn đầy đủ + chi tiết về AI nha!!!
Chúc các bạn thành công!!!