أعلنت شركة Google عن إطلاق أول نموذج تضمين متعدد الوسائط بالكامل يحمل اسم Gemini Embedding 2، وهو نموذج ذكاء اصطناعي جديد قادر على تحليل النصوص والصور والصوت والفيديو داخل نظام موحد لفهم البيانات.
وأوضحت الشركة أن النموذج الجديد يقوم بربط هذه الأنواع المختلفة من المحتوى داخل مساحة تضمين واحدة، ما يسمح للذكاء الاصطناعي بفهم المفاهيم سواء ظهرت في شكل كلمات مكتوبة أو صوت مسموع أو صورة أو حتى مقطع فيديو.
وتؤكد الشركة، التي تتخذ من مدينة Mountain View مقراً لها، أن هذه التقنية ستجعل من السهل على نماذج اللغة الكبيرة فهم المعلومات بطريقة أكثر تكاملاً، كما ستساعدها على تنفيذ مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.
أول نموذج تضمين متعدد الوسائط من جوجل
في تدوينة رسمية على مدونتها، كشفت Google تفاصيل النموذج الجديد، موضحة أنه يمثل الجيل التالي من نماذج التضمين التي طورتها الشركة، ويُعد Gemini Embedding 2 خليفة لنموذج التضمين السابق الذي كان يركز على النصوص فقط وتم إطلاقه العام الماضي، لكنه الآن قادر على فهم المعاني والسياق الدلالي عبر أكثر من 100 لغة مختلفة.
كما أصبح النموذج متاحاً حالياً في مرحلة المعاينة العامة من خلال واجهة البرمجة الخاصة بمنصة Gemini API وكذلك عبر منصة الذكاء الاصطناعي السحابية Vertex AI.
كيف تتعامل نماذج الذكاء الاصطناعي مع البيانات
عادةً ما تستخدم نماذج الذكاء الاصطناعي أنظمة منفصلة للتعامل مع أنواع البيانات المختلفة. فالنصوص يتم تخزينها ومعالجتها في نظام خاص، بينما تُحفظ الصور في نظام آخر، وكذلك الحال بالنسبة لمقاطع الفيديو والملفات الصوتية.
وعندما يطلب المستخدم معلومات معينة، يبدأ النموذج في البحث داخل النظام المرتبط بنوع الملف المطلوب فقط، فعلى سبيل المثال، غالباً ما تتعامل نماذج اللغة الكبيرة مع كلمة قطة داخل مستند نصي بشكل مختلف تماماً عن ظهور قطة داخل مقطع فيديو أو صورة، ويزيد الأمر تعقيداً أن طرق استخراج المعلومات تختلف من.....
لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه
هذا المحتوى مقدم من صحيفة اليوم السابع
