أعلنت شركة علي بابا كلاود عن إطلاق نموذجين جديدين من عائلة Qwen3 للذكاء الاصطناعي، يركزان على توليد الأصوات واستنساخها عبر أوامر نصية، في خطوة تهدف إلى تعزيز تطبيقات الصوت الاحترافية وصناعة المحتوى.
يحمل النموذج الأول اسم Qwen3-TTS-VD-Flash، ويتيح للمستخدمين إنشاء أصوات وفق أوصاف تفصيلية تشمل المشاعر، نبرة الصوت، سرعة الإلقاء، العمر، نوع الصوت والأسلوب، ما يمنح تحكمًا واسعًا في المخرجات الصوتية. وتؤكد علي بابا أن هذا النموذج يتفوق على واجهة OpenAI GPT-4o mini-tts من حيث الأداء.
أما النموذج الثاني، Qwen3-TTS-VC-Flash، فهو متخصص في استنساخ الأصوات، حيث يمكنه نسخ صوت شخص اعتمادًا على مقطع صوتي لا يتجاوز ثلاث ثوانٍ، مع إمكانية إعادة إنتاجه بعشر لغات مختلفة. وأكدت الشركة أن النموذج يحقق معدل أخطاء أقل مقارنة بمنافسين.....
لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه
هذا المحتوى مقدم من صحيفة الوئام
