صحيفة الوطن البحرينية | نماذج الرؤية واللغة «VLMs».. الأساس التقني للذكاء الاصطناعي متعدد الوسائط

نماذج الرؤية واللغة «VLMs».. الأساس التقني للذكاء الاصطناعي متعدد الوسائط

صحيفة الوطن البحرينية 27 يناير 2026 00:29

لطالما بدا تصور أن الذكاء الاصطناعي (AI) قادر على فهم الإشارات البصرية والنصية بالكفاءة نفسها التي يتمتع بها الإنسان أمراً بعيد المنال وغير قابل للتخيل.

غير أنّ ظهور الذكاء الاصطناعي متعدد الوسائط أحدث ثورة حقيقية، حيث أصبح الذكاء الاصطناعي قادراً على استيعاب وفهم عدة أنماط في الوقت نفسه، مثل النصوص، والصور، والكلام، وتعابير الوجه، والإيماءات الفسيولوجية، وغيرها، بما يمكّنه من تكوين فهم أشمل للعالم من حولنا. وقد أتاح هذا القدر من القدرة على معالجة الوسائط المتعددة آفاقاً واسعة لتطبيقات الذكاء الاصطناعي.

ومن أبرز التطبيقات الواعدة للذكاء الاصطناعي متعدد الوسائط نماذج الرؤية واللغة (Vision-Language Models VLMs). إذ تستطيع هذه النماذج معالجة وفهم نمطي اللغة (النص) والرؤية (الصورة) في آنٍ واحد، لتنفيذ مهام متقدمة تجمع بين الرؤية واللغة، مثل الإجابة عن الأسئلة البصرية (Visual Question Answering VQA)، وتوليد أوصاف للصور (Image Captioning)، والبحث من النص إلى الصورة (Text-to-Image Search).

- ما هي نماذج الرؤية واللغة؟

نموذج الرؤية واللغة هو دمج بين نماذج الرؤية الحاسوبية ونماذج معالجة اللغة الطبيعية. يستقبل النموذج الصور مع أوصافها النصية المقابلة كمدخلات، ويتعلم الربط بين المعارف المستخلصة من هذين النمطين. يقوم الجزء الخاص بالرؤية بالتقاط السمات المكانية من الصور، بينما يعمل نموذج اللغة على ترميز المعلومات المستمدة من النصوص.

وتتم مواءمة البيانات القادمة من كلا النمطين بما في ذلك الكائنات المكتشفة، والتخطيط المكاني للصورة، وتمثيلات النص (Embeddings) بحيث تُربط ببعضها البعض.....

لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه

هذا المحتوى مقدم من صحيفة الوطن البحرينية