Thời gian gần đây thấy nhiều anh em nước ngoài hay share những prompt có cấu trúc JSON. Vốn dĩ đây là một định dạng để trình bày dữ liệu và đặc trong ngành lập trình của mình nó được dùng như bát nước chấm trong bữa cơm hằng ngày.

Khá là tò mò về nó nên mình nhờ AI nghiên cứu thử xem ở đâu đó có tồn tại 1 lý thuyết gì đó có liên quan hay không? Và đây là kết quả mình có được, mọi người cùng đọc nhé!!!

1. Veo 3 có hỗ trợ JSON prompt không? Định dạng thế nào?

Không có định dạng JSON “chính thức” được Google công bố cho Veo 3, nhưng mô hình này có thể hiểu và xử lý prompt được viết dạng JSON như một thủ thuật do cộng đồng khám phá. Thực chất, JSON prompt vẫn chỉ là nội dung văn bản người dùng đưa vào, nhưng được tổ chức theo cấu trúc JSON (dạng key-value) để mô tả chi tiết các yếu tố của video. Google Veo 3 không có tham số API riêng cho JSON, prompt JSON đơn giản là viết prompt dưới dạng một object JSON rồi gửi vào như text – cách này tuy không được tài liệu chính thức đề cập nhưng tỏ ra “hiệu quả đáng ngạc nhiên” theo nhận xét từ một chuyên gia[1].

Về cú pháp, JSON prompt thường gồm một object với các trường mô tả từng khía cạnh cảnh phim. Ví dụ, một prompt JSON có thể bao gồm các key như: "shot" (cảnh quay – góc máy, ống kính, chuyển động camera...), "subject" (chủ thể – nhân vật, ngoại hình, trang phục), "scene" (bối cảnh – địa điểm, thời gian, môi trường), "visual_details" (chi tiết hình ảnh – hành động nhân vật, đạo cụ, hiệu ứng môi trường), "cinematography" (phong cách hình ảnh – ánh sáng, tông màu, ghi chú kỹ thuật), "audio" (âm thanh – âm thanh nền, giọng nói, nhạc hoặc lời thoại), "dialogue" (hội thoại nhân vật nếu có) và "visual_rules" (quy tắc hình ảnh – những yếu tố cần tránh xuất hiện).

Dưới đây là một đoạn ví dụ trích từ JSON prompt mẫu do cộng đồng chia sẻ, cho thấy cấu trúc các trường trong prompt JSON:

{
  "shot": {  
    "composition": "Medium tracking shot, 50mm lens...",  
    "camera_motion": "smooth Steadicam walk-along...",  
    "frame_rate": "24fps",  
    "film_grain": "clean digital with film-emulated LUT..."  
  },  
  "subject": {  
    "description": "A young woman with a petite frame and soft porcelain complexion...",  
    "wardrobe": "Crocheted ivory halter top..., high-waisted denim shorts..."  
  },  
  "scene": {  
    "location": "a quiet urban street bathed in early morning sunlight",  
    "time_of_day": "early morning",  
    "environment": "empty sidewalks, golden sunlight reflecting off puddles..."  
  },  
  ... 
}

Cấu trúc trên chỉ mang tính minh họa: Nhìn vào ví dụ, có thể thấy mỗi phần của ý tưởng video được tách bạch trong JSON: phần "shot" mô tả cách quay và thiết lập máy; "subject" mô tả nhân vật và trang phục; "scene" nêu bối cảnh; tiếp đó là chi tiết hành động, âm thanh, hội thoại, v.v. Veo 3 sẽ đọc cả khối JSON này như một đoạn mô tả có cấu trúc. Tóm lại, Veo 3 không có tham số đầu vào đặc biệt cho JSON, nhưng nếu người dùng định dạng prompt thành JSON với các trường hợp logic, mô hình vẫn hiểu ý định rất tốt và tạo video tương ứng[1].

2. Ưu điểm của JSON prompt so với prompt thường

Việc định dạng prompt dưới dạng JSON mang lại nhiều ưu thế về độ chính xác và kiểm soát so với prompt mô tả tự nhiên thông thường. Cụ thể:

  • Rõ ràng và chi tiết hơn: JSON prompt cung cấp cấu trúc rõ ràng (Clarity) cho ý tưởng của bạn – mỗi khía cạnh nội dung (cảnh quay, nhân vật, âm thanh, v.v.) đều được tách riêng, giúp AI hiểu chính xác “cái gì nằm ở đâu” trong yêu cầu[2]. Trong khi đó, prompt thường là một đoạn văn mô tả liền mạch, dễ dẫn đến việc mô hình hiểu sai hoặc bỏ sót chi tiết nếu câu từ không đủ rõ. JSON định dạng theo kiểu kịch bản sẽ giống như bạn đưa cho AI một “bảng phân cảnh” có tổ chức, thay vì một đoạn mô tả mơ hồ[3]. Kết quả là độ chính xác nội dung cao hơn – video tạo ra sát với ý muốn hơn so với dùng prompt thường.
  • Kiểm soát như đạo diễn: Với JSON, người dùng có mức độ kiểm soát nội dung cao (Control), gần giống như vai trò một đạo diễn chỉ đạo từng chi tiết[2]. Bạn có thể quy định cụ thể về góc máy (ví dụ: loại ống kính, cỡ cảnh, chuyển động camera), phong cách hình ảnh (tông màu, ánh sáng, hiệu ứng phim), thậm chí cả tốc độ khung hình, hạt phim (film grain) hay thiết bị giả lập[4]. Những chi tiết kỹ thuật này nếu viết bằng ngôn ngữ tự nhiên có thể khó diễn đạt đầy đủ, nhưng dưới dạng JSON thì dễ dàng liệt kê theo từng trường. Nói cách khác, JSON prompt cho phép bạn điều khiển gần như mọi mặt của cảnh quay – từ bố cục khung hình đến âm thanh – điều mà prompt thường khó đạt được mức chi tiết tương tự.
  • Giảm mơ hồ, tăng tính tái lập: Nhờ cấu trúc có trật tự, JSON prompt làm giảm sự mơ hồ trong diễn giải, đồng thời tăng tính nhất quán và tái lập (Reproducibility) của kết quả[2]. Mỗi khi bạn cần chỉnh sửa một khía cạnh (ví dụ đổi bối cảnh hoặc trang phục), bạn chỉ cần thay đổi đúng phần JSON tương ứng mà không ảnh hưởng đến các phần khác[2]. Điều này giúp việc thử nghiệm và tinh chỉnh prompt trở nên hệ thống hơn – bạn có thể so sánh kết quả khi thay đổi từng tham số một cách khoa học. Trái lại, với prompt thường, mọi chi tiết trộn lẫn trong một đoạn mô tả; chỉnh sửa có thể đòi hỏi viết lại cả câu văn và kết quả mỗi lần generate có thể dao động khó kiểm soát hơn.
  • Kiểm soát nội dung không mong muốn: JSON prompt cho phép định rõ những yếu tố cần tránh thông qua các trường đặc biệt. Chẳng hạn, bạn có thể thêm phần "visual_rules" liệt kê các “prohibited_elements” (yếu tố cấm) như subtitles (phụ đề), text overlays (chữ đè trên màn hình), karaoke-style lyrics, v.v. Nhờ đó mô hình sẽ biết chắc những gì không nên xuất hiện trong video[5]. Trong prompt thường, người dùng có thể cố viết “không có phụ đề, không chữ trên màn hình”, nhưng mô hình có thể hiểu sai hoặc bỏ qua từ “không”, dẫn đến vẫn chèn chữ trong video. Việc quy định dưới dạng cấu trúc JSON rõ ràng như trên giúp hạn chế việc AI tạo ra chi tiết thừa mà bạn không muốn.
  • Ngôn ngữ “điện ảnh” chuyên nghiệp hơn: Khi viết prompt dạng JSON, người dùng thường có xu hướng sử dụng ngôn ngữ mô tả kỹ thuật rõ ràng và chuyên sâu hơn (ví dụ: thuật ngữ về điện ảnh, nhiếp ảnh). Các hướng dẫn từ chuyên gia gợi ý nên “dùng ngôn ngữ làm phim” – ví dụ như từ ngữ về ống kính, độ mở, chuyển động máy, hiệu ứng bokeh, phong cách màu phim... để mô tả cảnh[6]. Việc này không chỉ làm prompt chi tiết hơn mà còn giúp Veo 3 tạo ra video đậm chất điện ảnh đúng ý đồ. Prompt tự nhiên thông thường đôi khi ít sử dụng các thuật ngữ kỹ thuật này, do đó có thể dẫn tới kết quả hình ảnh chung chung hơn. JSON prompt khuyến khích tư duy như một nhà làm phim thực thụ, kết quả video vì thế cũng sắc nét và “có đạo diễn” hơn[7].

Tóm lại, JSON prompt vượt trội về độ chính xác, tính kiểm soát và chi tiết kỹ thuật. Nó biến quá trình tạo video bằng AI từ chỗ “đoán xem AI sẽ làm gì” thành “ra lệnh có cấu trúc để AI thực hiện”[8]. Ngược lại, prompt thường tuy dễ viết hơn nhưng tiềm ẩn diễn giải mơ hồ – mô hình có thể tự suy diễn thêm bớt, khó đảm bảo mọi chi tiết đúng ý muốn nếu prompt không đủ chặt chẽ. Dù vậy, cần lưu ý rằng Veo 3 cuối cùng vẫn xử lý cả hai dạng prompt như input văn bản – JSON chỉ là cách tổ chức thông tin tốt hơn, chứ không phải định dạng dữ liệu đặc biệt bắt buộc. Bạn không nhất thiết phải dùng JSON nếu prompt thường đã đủ rõ, nhưng JSON là công cụ hữu ích để đạt độ chính xác cao hơn cho các cảnh phức tạp[9].

3. Nên dùng định dạng nào để có kết quả tốt nhất?

Việc lựa chọn giữa JSON prompt và prompt thường (dạng viết liền mạch như chúng ta vẫn thường sử dụng) tùy thuộc vào nhu cầu cụ thể và độ phức tạp của video bạn muốn tạo, cũng như kinh nghiệm prompt của người dùng. Một số điểm cân nhắc thực tế:

  • Nếu bạn hướng đến chất lượng cao nhất, kiểm soát tối đa: Hãy thử sử dụng prompt có cấu trúc JSON. Định dạng này đặc biệt hữu ích khi bạn cần video phức tạp, có nhiều chi tiết kỹ thuật hoặc kể chuyện nhiều phân cảnh. Các chuyên gia nhận định rằng cho những nội dung “dài hơi” hoặc phức tạp, prompt có cấu trúc là gần như bắt buộc để đảm bảo nhất quán (ngụ ý ngay cả khi sau này tạo video dài hơn 8 giây, cần phải có cấu trúc rõ)[9]. JSON prompt giúp bạn giữ đúng ý tưởng cho từng cảnh, hạn chế “mất kiểm soát” khi video có nhiều yếu tố. Thực tế cộng đồng Veo 3 đã chứng minh nhiều video ấn tượng được tạo ra nhờ viết prompt dưới dạng JSON một cách chi tiết.
  • Nếu bạn chỉ tạo video đơn giản hoặc mới bắt đầu: Prompt ngôn ngữ tự nhiên thông thường vẫn có thể cho kết quả tốt, miễn là bạn viết đủ chi tiết và rõ ràng. Với những cảnh ngắn (ví dụ clip 8 giây tiêu chuẩn của Veo 3) và ý tưởng không quá phức tạp, bạn có thể dùng prompt thường để mô tả. Hãy tuân theo các best practice do chính Google gợi ý: sử dụng nhiều tính từ cụ thể, cung cấp bối cảnh, đề cập phong cách nghệ thuật, mô tả hành động, v.v. một cách rành mạch trong prompt[10]. Prompt thường nếu được chăm chút kỹ lưỡng vẫn tạo ra video chất lượng. Điểm lợi của prompt thường là dễ viết, tự nhiên, phù hợp cho người dùng mới hoặc khi bạn muốn thử nghiệm nhanh một ý tưởng.

Tóm lại, để có kết quả tốt nhất với Veo 3: Nếu bạn có thời gian và mong muốn điều khiển chi tiết, hãy dùng định dạng JSON để tận dụng tối đa sức mạnh mô hình. Còn nếu không, một prompt ngắn gọn nhưng đầy đủ ý bằng ngôn ngữ tự nhiên cũng có thể đủ – chỉ cần bạn mô tả cụ thể và rõ ràng. Nhiều chuyên gia nhấn mạnh rằng JSON chỉ là tùy chọn, không bắt buộc; điều cốt yếu là prompt phải có cấu trúc logic cho dù viết dưới hình thức nào[9]. Trong mọi trường hợp, mục tiêu là truyền đạt ý tưởng một cách rõ nhất đến AI: bạn có thể bắt đầu với prompt thường chi tiết, sau đó khi đã quen thì chuyển sang format JSON để tinh chỉnh thêm nếu cần.

4. Tài liệu và ví dụ hướng dẫn từ Google hoặc chuyên gia về prompt Veo 3

Về tài liệu chính thức từ Google: hiện tại Google chưa có hướng dẫn cụ thể về “JSON prompt” cho Veo 3 (vì định dạng này chưa phải tính năng API được công bố). Tuy nhiên, Google có cung cấp tài liệu chung về cách viết prompt tạo video. Ví dụ, trong hướng dẫn “Vertex AI Video Generation Prompt Guide” trên Google Cloud, hãng khuyến nghị người dùng viết prompt thật chi tiết và có cấu trúc – bao gồm mô tả rõ ràng chủ thể, bối cảnh, hành động, phong cách hình ảnh, chuyển động camera, v.v[11][10].

Những gợi ý như “sử dụng ngôn ngữ miêu tả với tính từ, cung cấp bối cảnh cần thiết, tham chiếu phong cách nghệ thuật cụ thể” đều được nhấn mạnh nhằm giúp Veo 3 hiểu đúng ý định của người dùng[10]. Nói cách khác, dù không nhắc trực tiếp đến JSON, tài liệu chính thức của Google cũng gián tiếp ủng hộ việc phân tách ý tưởng theo từng yếu tố – điều mà JSON prompt đang làm một cách xuất sắc.

Ngoài ra, Google còn có các ví dụ mẫu về prompt và video output tương ứng trong tài liệu (ví dụ như cảnh “người đàn ông nghe điện thoại” với các phiên bản prompt từ ít đến nhiều chi tiết để so sánh kết quả[12][13]). Những tài liệu này cho thấy: càng chi tiết và có cấu trúc, video tạo ra càng sát ý muốn – đây cũng chính là lý do cộng đồng nghĩ ra việc dùng JSON để tăng mức độ cấu trúc cho prompt.

Về hướng dẫn từ chuyên gia và cộng đồng: Chủ đề viết prompt cho Veo 3, đặc biệt là prompt dạng JSON, đang rất được quan tâm. Nhiều chuyên gia AI và creator đã chia sẻ kinh nghiệm của họ thông qua blog, bài viết kỹ thuật và video hướng dẫn. Chẳng hạn, Emmanuel Mumba – một chuyên gia công nghệ – đã viết một bài hướng dẫn trên Dev.to về “hack” định dạng JSON cho Veo 3, trong đó cung cấp một ví dụ JSON prompt đầy đủ và phân tích từng thành phần của nó. Bài viết nhấn mạnh rằng Veo 3 “rất phát huy hiệu quả khi prompt có cấu trúc”, và liệt kê các mẹo cụ thể để viết prompt JSON tốt (ví dụ: dùng ngôn ngữ điện ảnh như “lens”, “frame rate”, “cinematic motion”…; miêu tả nhân vật chi tiết như vẽ tranh; thiết lập tông màu ánh sáng rõ ràng; sử dụng động từ hành động; tránh những yếu tố dễ gây lỗi như chữ trên màn hình…)[2][6].

Đây là một nguồn tham khảo quý giá cho người dùng muốn thử nghiệm JSON prompt. Bên cạnh đó, trên Substack và Medium cũng có các bài viết chuyên sâu: Brian Clovett trên Substack “The Creative Possible” đã bàn về việc có nên prompt bằng JSON hay không; Brian W. Sykes trên Medium (tháng 7/2025) thì phân tích về “cơn sốt JSON prompt” xung quanh VEO 3[14], cung cấp cái nhìn thực tế và trung lập về chủ đề này.

Các cuộc thảo luận sôi nổi trên Reddit (nhóm r/VEO3) cũng chia sẻ nhiều tipstemplate prompt, ví dụ có người đề xuất format prompt 7 thành phần (gồm chủ thể, hành động, bối cảnh, phong cách, hội thoại, âm thanh, và “tiêu cực” để loại trừ yếu tố không mong muốn).

Nếu bạn tìm kiếm, bạn sẽ thấy video hướng dẫn trên YouTube về Veo 3 sử dụng JSON prompt (từ các kênh như Flow Labs, AI Everywhere, v.v.), nơi họ trình diễn cách viết JSON và kết quả video thu được. Những ví dụ này cho thấy cách triển khai thực tế: từ việc chuyển một đoạn mô tả phim thành JSON, cho đến việc dùng công cụ hỗ trợ viết prompt. Mặc dù các nguồn này không phải “chính thức từ Google”, chúng được tạo ra bởi những người thử nghiệm nhiều với Veo 3, nên rất hữu ích.

Tóm lại, Google cung cấp hướng dẫn tổng quát về prompt (nhấn mạnh tính chi tiết và mạch lạc)[10], còn định dạng JSON prompt là kinh nghiệm từ cộng đồng. Hiện chưa có tài liệu chính thức nào của Google mô tả cú pháp JSON cho Veo, nhưng các bài hướng dẫn từ chuyên gia (trên Dev.to, Substack, Medium, Reddit...) đã lấp đầy khoảng trống này bằng những ví dụ và mẹo cụ thể.

Anh chị em có tham khảo những nguồn này để học cách viết prompt hiệu quả cho Veo 3 – cho dù là prompt thường hay JSON – và nên nhớ rằng mục đích cuối cùng là truyền đạt ý tưởng một cách rõ ràng, có tổ chức để khai thác tối đa sức mạnh của mô hình.

Chia sẻ bài viết này