جمع بيانات الذكاء الاصطناعي

يُعد جمع بيانات الذكاء الاصطناعي عملية أساسية تهدف إلى تجميع البيانات اللازمة لبناء حالات استخدام الذكاء الاصطناعي داخل المؤسسات. وتشمل هذه الحالات مشاريع تعتمد على التعلم الآلي الإحصائي، أو التعلم العميق، أو حتى النماذج اللغوية الكبيرة (LLMs). وفي حين تتطلب مشاريع التعلم الآلي والتعلم العميق بيانات لكلٍ من التدريب والتقييم، فإن التطبيقات المعتمدة على النماذج اللغوية الكبيرة تحتاج في الغالب إلى البيانات لأغراض الاستدلال فقط.

على مستوى عام، يتضمن جمع بيانات الذكاء الاصطناعي الحصول على كميات كبيرة من البيانات من مصادر متعددة، مثل المواقع الإلكترونية، وواجهات البرمجة (APIs)، وأجهزة الاستشعار، ومنصات التواصل الاجتماعي، وتفاعلات المستخدمين على مواقع المؤسسة. وقد تكون هذه البيانات منظمة أو غير منظمة، وبمستويات جودة متفاوتة. ولضمان فعالية عملية جمع البيانات، يجب دمج ممارسات إدارة جودة البيانات وحوكمتها ضمن هذه العملية.

- مصادر البيانات:

يؤثر مصدر البيانات بشكل مباشر على تصميم خط أنابيب الذكاء الاصطناعي (AI Pipeline). وفيما يلي نظرة عامة على أبرز أنواع مصادر البيانات المستخدمة:

- جمع البيانات عبر الويب (Web Scraping):

عادةً ما تكون البيانات المستخرجة من الويب غير منظمة، وقد تحتوي على عناصر HTML غير مرغوب فيها. ومع تزايد استخدام أدوات الحماية مثل Cloudflare، أصبحت العديد من المواقع تقوم بحظر أدوات الاستخلاص الآلي.

- استعلامات واجهات البرمجة (API Queries):

توفر العديد من الجهات المزودة للبيانات واجهات REST API تتيح إرسال طلبات إلى نقاط اتصال عبر HTTPS واستلام البيانات، غالبًا بصيغة JSON. وقد تكون هذه الاستعلامات محدودة بمعدلات استخدام (Rate Limits) وفقاً للاتفاق مع مزود الخدمة.

- الملفات الضخمة (Monolithic Files):

قد يقوم بعض مزودي البيانات بإتاحة ملفات كبيرة (مثل ملفات ZIP) للتنزيل، والتي يتم استخراجها محلياً لاستخدامها لاحقاً في المعالجة.

- استعلامات قواعد البيانات (Database Queries):

تعتمد العديد من المؤسسات على قواعد بيانات داخلية يمكن الاستعلام عنها باستخدام SQL أو أدوات مرئية. كما تتيح النماذج اللغوية الكبيرة إمكانية الاستعلام بلغة طبيعية، وتكون البيانات الناتجة عادةً منظمة بدرجة عالية.

- المحتوى المُنشأ من قبل المستخدم (User-Generated Content):

يمثل المستخدمون.....

لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه


هذا المحتوى مقدم من صحيفة الوطن البحرينية

إقرأ على الموقع الرسمي


المزيد من صحيفة الوطن البحرينية

منذ 14 دقيقة
منذ 6 ساعات
منذ 30 دقيقة
منذ 28 دقيقة
منذ 50 دقيقة
منذ 55 دقيقة
صحيفة الوطن البحرينية منذ 19 ساعة
صحيفة الوطن البحرينية منذ 13 ساعة
صحيفة الوطن البحرينية منذ 16 ساعة
صحيفة الأيام البحرينية منذ 22 ساعة
صحيفة الوطن البحرينية منذ 3 ساعات
صحيفة الوطن البحرينية منذ ساعتين
صحيفة الوطن البحرينية منذ 13 ساعة
صحيفة الوطن البحرينية منذ 13 ساعة