أعلنت شركة DeepSeek في أكتوبر الماضي عن تقنية DeepSeek-OCR، وهي طريقة تعتمد على تمثيل النص بصريًا كوسيط لضغطه. وتُعلن الشركة أن هذا الأسلوب يمكنه تقليل عدد الرموز النصية (Tokens) بنحو 7 إلى 20 مرة مقارنة بالنصوص التقليدية. وتوضح أن الهدف هو تمكين نماذج الذكاء الاصطناعي من معالجة المستندات الطويلة والمعقدة بشكل أكثر كفاءة من خلال تقليل الحمولة النصية. وتؤكد الشركة أن ذلك يمثل خطوة في طريقة تعامل أنظمة الذكاء الاصطناعي مع النصوص الكبيرة، خاصة في سياقات تحتاج فهماً معمقاً للمخطوطات المطبوعة.
أشارت دراسة مستقلة أُعدت من باحثين في جامعة توهوكو اليابانية والأكاديمية الصينية للعلوم إلى أن الأداء ليس ثابتًا بل يعتمد بشكل كبير على أنماط نصوص سابقة. وخلصت الدراسة المعنونة قيمة بصرية أم عكاز لغوي؟ نظرة متعمقة على DeepSeek-OCR إلى أن النتائج ليست متسقة وأن الاعتماد على الأسبقيات اللغوية يغلب على الاستدلال مقابل الفهم البصري. كما أشارت المؤشرات إلى أن دقة الإجابة عن الأسئلة البصرية انخفضت إلى نحو 20% عند إضافة نص يمكن أن يؤثر في الاستدلال،.....
لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه
هذا المحتوى مقدم من الإمارات نيوز
