الذكاء الاصطناعي الصوتي يقترب من تحقيق رؤية فيلم «Her» في 2013

كثيرًا ما يستشهد روّاد التكنولوجيا بفيلم الخيال العلمي «Her» الصادر عام 2013 كنموذجٍ يُحتذى في مجال الذكاء الاصطناعي. في الفيلم، يقضي خواكين فينيكس أيامه متحدثًا عبر سماعة أذن صغيرة إلى سامانثا، مساعدته الافتراضية الدائمة وحبيبته المستقبلية، والتي تؤدي صوتها سكارليت جوهانسون. لا يُعد الفيلم بمثابة رسالة حب للذكاء الاصطناعي، ولكنه يُلمّح إلى وجهة استثمارات المستثمرين واهتمام المستخدمين في عام 2026.

600 مليون جهاز مزود بتقنية أليكسا في العالم البرامج الصوتية ليست جديدة؛ يستخدم الكثيرون بالفعل مساعد سيري من شركة آبل، على سبيل المثال.

أعلنت أمازون في أوائل 2025 عن وجود 600 مليون جهاز مزود بتقنية أليكسا في العالم، مما يُساعد المستخدمين على البحث عن المعلومات، وتشغيل الموسيقى، والتحكم في إضاءة غرفة المعيشة.

لكن هذه التجارب كانت تاريخيًا غير سلسة، إذ كانت الأصوات تبدو آلية في الغالب. كان البرنامج يعمل وفق قواعد جامدة مُبرمجة مسبقًا، مما صعّب معالجة المعلومات الجديدة وفهم سياق الاستفسار بالطريقة التي يُتيحها برنامجا تشات جي بي تي من أوبن إيه آي وكلاود من أنثروبيك.

لكن الذكاء الاصطناعي يُغيّر كل ذلك. فأصبحت أليكسا وسيري تتمتعان الآن بقوة نماذج اللغة الكبيرة (LLMs)، مما يُحسّن فائدتهما بشكل ملحوظ. وفي الوقت نفسه، يعمل سام ألتمان وجوني آيف من أوبن إيه آي على جهاز يبدو أنه سيكون من دون شاشة، ويفتح علامة تبويب جديدة مع عنصر صوتي قوي. كما تُعدّ الشركات الناشئة مثل إيلفنلاب جزءًا من هذا التوجه. تتخصص هذه الشركة، التي تبلغ قيمتها 6.6 مليار دولار، في جعل أصوات الكمبيوتر تبدو واقعية، وقد دفعت 11 مليون دولار لأشخاص لتحميل مقاطع صوتية قصيرة. تُساعد هذه العينات في تدريب أنظمة قادرة على محاكاة مجموعة واسعة من النبرات واللهجات والمشاعر.

ومع ازدياد ذكاء الذكاء الاصطناعي المُفعّل صوتيًا واقترابه من الصوت البشري، سيُقبل عليه المستهلكون بشغف. بحسب دراسة أكاديمية أجريت عام 2016، يُعدّ التحدث أسرع بثلاث مرات تقريبًا من الكتابة باللغتين الإنجليزية والصينية. تدّعي نماذج التعرّف على الكلام الرائدة، مثل ويسبر من أوبن إيه آي، معدلات خطأ منخفضة تصل إلى 3%، أي أنها تُصيب 97% من الكلمات.. وهذا يُعادل تقريبًا دقة استخدام لوحة مفاتيح الهاتف الذكي، حيث يبلغ معدل الأخطاء الإملائية لدى المستخدمين عادةً نحو 2% استنادًا إلى تجربة أجريت عام 2019.

بدلًا من استخدام متصفح الويب أو تطبيق الهاتف لطلب الطعام أو سيارة أجرة، سيصبح من الشائع بشكل متزايد التحدث إلى مساعد ذكي يعمل بالذكاء الاصطناعي. على سبيل المثال، تدعم شركة أوبر تكنولوجيز بالفعل الأوامر الصوتية لمستخدمي سيري باللغات الإنجليزية والألمانية واليابانية والفرنسية والهندية والبرتغالية.

نظريًا، يُمكن للعميل الذي يرتدي سماعات الأذن طلب طبق السوشي المُفضّل لديه دون الحاجة إلى إخراج هاتفه من جيبه.

وهذا من شأنه أن يُناسب أيضًا كبار السن أو ضعاف البصر، الذين قد لا يشعرون بالراحة عند استخدام الرسائل النصية.

المستهلكون مستعدون بالفعل للذكاء الاصطناعي الصوتي. فارتداء سماعات الرأس لفترات طويلة من اليوم أصبح شائعًا بشكل متزايد. ويرسل مستخدمو واتساب أكثر من 7 مليارات رسالة صوتية يوميًا، بينما يستخدم ما يقرب من نصف الشباب الملاحظات الصوتية أسبوعيًا، وفقًا لتوم هولم من جي في. تتوقع شركة نكست موف ستراتيجي أن تتضاعف إيرادات سوق الذكاء الاصطناعي الصوتي بالكامل، بما في ذلك سماعات الأذن الذكية، أكثر من ثلاث مرات بين عامي 2025 و2030، لتصل إلى 34 مليار دولار بنهاية العقد.

وفي الوقت نفسه، استثمرت شركات رأس المال المخاطر 6.6 مليار دولار في الشركات الناشئة المتخصصة في الذكاء الاصطناعي الصوتي عام 2025، بزيادة عن 4 مليارات دولار عام 2023، وفقًا لـ«بيتش بوك».

والسؤال الأهم هو: أي الشركات ستستفيد من تحول روبوتات الدردشة إلى روبوتات صوتية؟ ويبدو أن الطلب المتزايد على الأصوات الطبيعية مرجح، وهو ما سيفيد شركة إيلفن لابس. وتزعم الشركة الناشئة أنها تستحوذ على حصة مهيمنة تتراوح بين 70% و80% من سوق الصوت الاصطناعي. تتوقع الشركة تحقيق إيرادات متكررة سنوية بقيمة 300 مليون دولار بحلول نهاية عام 2025، وحققت هامش ربح تشغيلي بنسبة 60%. تبحث شركات التكنولوجيا العملاقة بالفعل عن طرق لنقل الذكاء الاصطناعي من الشاشة إلى الأذن. توفر سماعات إيربودز من آبل الآن ترجمة فورية بخمس لغات، مما يتيح للمستخدمين فهم ما يقوله المتحدث الأجنبي في الوقت الفعلي. وتعمل شركة ألفابت على دمج وظائف مماثلة من مساعدها جيميني في سماعات بكسل بدز. مع ذلك، قد يكمن التحدي الأكبر في تطوير نماذج ذكاء اصطناعي صوتية أكثر تخصصًا، تختلف عن الأنظمة النصية في المقام الأول. غالبًا ما يتضمن الوضع الراهن للعديد من المساعدين الصوتيين ترجمة الكلام إلى نص، ثم إدخاله إلى نموذج لغة، ثم قراءة النتائج بصوت عالٍ. يتمثل البديل الأفضل، وإن كان أكثر تكلفة، في بناء أنظمة «صوتية موحدة» قادرة على الاستماع والتحليل والاستجابة مباشرةً من خلال الصوت فقط. يفتح هذا آفاقًا جديدة، مثل دمج نبرة صوت المستخدم والضوضاء المحيطة في الإجابة. بمعنى آخر، إنها خطوة أقرب إلى رؤية الخيال العلمي لفيلم «هي». (رويترز)


هذا المحتوى مقدم من منصة CNN الاقتصادية

إقرأ على الموقع الرسمي


المزيد من منصة CNN الاقتصادية

منذ 5 ساعات
منذ 8 ساعات
منذ 9 ساعات
منذ 5 ساعات
منذ 4 ساعات
منذ 6 ساعات
منصة CNN الاقتصادية منذ ساعة
اقتصاد الشرق مع Bloomberg منذ 8 ساعات
اقتصاد الشرق مع Bloomberg منذ 12 ساعة
قناة العربية - الأسواق منذ 4 ساعات
قناة CNBC عربية منذ 15 ساعة
قناة العربية - الأسواق منذ 10 ساعات
اقتصاد الشرق مع Bloomberg منذ 3 ساعات
قناة CNBC عربية منذ ساعة