Tech!

Tencent เปิดตัว Hunyuan Video-Foley: ยกระดับการสร้างวิดีโอด้วยเสียงประกอบจาก AI ที่สมจริง

บริษัท Tencent ประกาศเปิดตัว Hunyuan Video-Foley ซึ่งเป็น AI ที่ได้รับการออกแบบมาเพื่อแก้ไขปัญหาสำคัญในการสร้างวิดีโอด้วย AI นั่นคือการขาดเสียงประกอบที่สมจริงและสอดคล้องกับภาพเคลื่อนไหวบนหน้าจอ

ในอดีต วิดีโอที่สร้างโดย AI มักจะประสบปัญหา “modality imbalance” ซึ่งหมายถึงการที่ AI ให้ความสำคัญกับคำสั่งที่เป็นข้อความ (text prompt) มากกว่าข้อมูลจากวิดีโอ (visual data) ส่งผลให้เสียงที่สร้างขึ้นมีความแม่นยำต่ำและไม่สามารถสะท้อนรายละเอียดของภาพได้อย่างครบถ้วน ทำให้ประสบการณ์การรับชมขาดความสมจริง

เพื่อแก้ไขปัญหานี้ ทีมพัฒนาของ Tencent ได้นำวิธีการใหม่ 3 ประการมาใช้:

  1. การสร้างชุดข้อมูลคุณภาพสูง: มีการรวบรวมคลังข้อมูลขนาดใหญ่กว่า 100,000 ชั่วโมง ซึ่งประกอบด้วยวิดีโอ, เสียง, และคำบรรยาย โดยใช้ระบบอัตโนมัติในการคัดกรองเนื้อหาที่มีคุณภาพต่ำออก เพื่อให้มั่นใจว่า AI จะเรียนรู้จากข้อมูลที่ดีที่สุดเท่านั้น

  2. สถาปัตยกรรมแบบคู่ (Dual-Stream Architecture): แทนที่จะพึ่งพาข้อมูลจากข้อความเพียงอย่างเดียว Hunyuan Video-Foley ได้รับการออกแบบให้วิเคราะห์ความสัมพันธ์ระหว่างภาพและเสียงในวิดีโอเป็นอันดับแรก เพื่อให้สามารถสร้างเสียงที่ตรงกับจังหวะการเคลื่อนไหวได้อย่างแม่นยำ จากนั้นจึงนำข้อมูลจากข้อความมาประกอบเพื่อเพิ่มความเข้าใจในบริบทโดยรวมของฉาก

  3. กลยุทธ์การฝึกฝนแบบ Representation Alignment (REPA): ระบบนี้เปรียบเสมือนการนำผู้เชี่ยวชาญด้านเสียงมาช่วยกำกับกระบวนการเรียนรู้ของ AI โดยมีการนำเสียงที่ AI สร้างขึ้นมาเปรียบเทียบกับรูปแบบเสียงจากโมเดลระดับมืออาชีพ เพื่อปรับปรุงคุณภาพเสียงให้มีความคมชัดและมีความเสถียรมากขึ้น

จากการทดสอบเชิงเปรียบเทียบกับโมเดล AI ชั้นนำอื่น ๆ ผลลัพธ์ที่ได้แสดงให้เห็นว่า Hunyuan Video-Foley สามารถสร้างเสียงที่มีคุณภาพสูงกว่า และมีความสอดคล้องกับภาพทั้งในด้านเนื้อหาและจังหวะเวลา โดยได้รับการยืนยันจากทั้งการประเมินด้วยคอมพิวเตอร์และจากการสำรวจความคิดเห็นของผู้รับชม

การเปิดตัว Hunyuan Video-Foley ถือเป็นการก้าวสำคัญที่ช่วยลดช่องว่างระหว่างวิดีโอที่สร้างโดย AI กับประสบการณ์การรับชมที่สมจริง และเป็นเครื่องมือที่ทรงพลังสำหรับผู้สร้างสรรค์เนื้อหา, ผู้ผลิตภาพยนตร์, และนักพัฒนาเกม ในการสร้างสรรค์ผลงานที่มีคุณภาพสูงได้อย่างมีประสิทธิภาพ

Source
www.artificialintelligence-news.com

jetboat

Jetboat is a Bangkok-based tech blogger and has more than ten years of blogger sence in Thailand Specializes in mobile application , tech industries , security ,gadget, mobile marketing ,social network.

Related Articles

Back to top button