المحادثات مع جهاز الكمبيوتر الخاص بك قد تصبح أكثر واقعية

جدول المحتويات:

المحادثات مع جهاز الكمبيوتر الخاص بك قد تصبح أكثر واقعية
المحادثات مع جهاز الكمبيوتر الخاص بك قد تصبح أكثر واقعية
Anonim

الوجبات الجاهزة الرئيسية

  • تستخدم Meta الذكاء الاصطناعي لصنع برامج يمكنها التعبير عن المشاعر في الكلام.
  • قال فريق الذكاء الاصطناعي في الشركة إنه أحرز تقدمًا في نمذجة الأصوات التعبيرية ، مثل الضحك والتثاؤب والبكاء و "الدردشة العفوية" في الوقت الفعلي.
  • يتم استخدام الذكاء الاصطناعي أيضًا لتعزيز التحسينات في التعرف على الكلام.
Image
Image

قد تتمكن قريبًا من إجراء محادثة أكثر طبيعية مع جهاز الكمبيوتر الخاص بك ، وذلك بفضل قوة الذكاء الاصطناعي (AI).

قالت Meta إنها أحرزت تقدمًا كبيرًا في جهودها لإنشاء أنظمة كلام أكثر واقعية مولدة بواسطة الذكاء الاصطناعي. قال فريق الذكاء الاصطناعي في الشركة إنه حقق تقدمًا في القدرة على نمذجة الأصوات التعبيرية ، مثل الضحك والتثاؤب والبكاء ، بالإضافة إلى "الدردشة التلقائية" في الوقت الفعلي.

"في أي محادثة معينة ، يتبادل الأشخاص المليء بالإشارات غير اللفظية ، مثل التنغيم ، والتعبير العاطفي ، والإيقاف المؤقت ، واللهجات ، والإيقاعات - وكلها مهمة للتفاعلات البشرية ،" كتب الفريق في منشور المدونة الأخير. "لكن أنظمة الذكاء الاصطناعي الحالية تفشل في التقاط هذه الإشارات الغنية والمعبرة لأنها تتعلم فقط من النص المكتوب ، الذي يلتقط ما نقوله ولكن ليس كيف نقول ذلك."

خطاب أذكى

في منشور المدونة ، قال فريق Meta AI إنهم يعملون للتغلب على قيود أنظمة الذكاء الاصطناعي التقليدية التي لا تستطيع فهم الإشارات غير اللفظية في الكلام ، مثل التنغيم والتعبيرات العاطفية والإيقاف المؤقت واللهجات والإيقاعات.تتعطل الأنظمة لأنه لا يمكنها التعلم إلا من النص المكتوب.

لكن عمل Meta يختلف عن الجهود السابقة لأن نماذج الذكاء الاصطناعي الخاصة بها يمكن أن تستخدم نماذج معالجة اللغة الطبيعية لالتقاط الطبيعة الكاملة للغة المنطوقة. يقول باحثو ميتا إن النماذج الجديدة يمكن أن تسمح لأنظمة الذكاء الاصطناعي بنقل المشاعر التي يريدون نقلها - مثل الملل أو السخرية.

"في المستقبل القريب ، سنركز على تطبيق تقنيات لا تحتوي على نص لإنشاء تطبيقات مفيدة في المراحل النهائية دون الحاجة إلى تسميات نصية كثيفة الاستخدام للموارد أو أنظمة التعرف التلقائي على الكلام (ASR) ، مثل الإجابة على الأسئلة (على سبيل المثال ،" How's the الطقس؟ ") ، كتب الفريق في منشور المدونة. "نعتقد أن العرض في الكلام يمكن أن يساعد في تحليل أفضل للجملة ، وهذا بدوره يسهل فهم النية ويحسن أداء إجابة السؤال."

فهم قوى الذكاء الاصطناعي

لا تتحسن أجهزة الكمبيوتر في توصيل المعنى فحسب ، بل يتم استخدام الذكاء الاصطناعي أيضًا لتعزيز التحسينات في التعرف على الكلام.

يعمل علماء الكمبيوتر على التعرف على الكلام على الكمبيوتر منذ عام 1952 على الأقل ، عندما أنشأ ثلاثة باحثين من Bell Labs نظامًا يمكنه التعرف على الأرقام الرقمية الفردية ، كما قال كبير مسؤولي التكنولوجيا في AI Dynamics ، Ryan Monsurate ، في رسالة بريد إلكتروني إلى لايف واير. بحلول التسعينيات ، كانت أنظمة التعرف على الكلام متاحة تجاريًا ولكن لا يزال معدل الخطأ فيها مرتفعًا بما يكفي لتثبيط الاستخدام خارج مجالات التطبيق المحددة جدًا مثل الرعاية الصحية.

"الآن بعد أن مكّنت نماذج التعلم العميق نماذج المجموعات (مثل تلك التي تنتجها Microsoft) من تحقيق أداء خارق في التعرف على الكلام ، لدينا التكنولوجيا لتمكين الاتصال اللفظي المستقل عن المتحدث مع أجهزة الكمبيوتر على نطاق واسع" ، قال مونسورات. "ستشمل المرحلة التالية خفض التكلفة حتى يتمكن كل من يستخدم Siri أو مساعدي الذكاء الاصطناعي من Google من الوصول إلى هذا المستوى من التعرف على الكلام."

Image
Image

الذكاء الاصطناعي مفيد للتعرف على الكلام لأنه يمكن أن يتحسن بمرور الوقت من خلال التعلم ، كما قال أرييل أوتك ، كبير مسؤولي الإيرادات والمدير العام في شركة الصوت AI Verbit.ai ، لـ Lifewire في مقابلة عبر البريد الإلكتروني. على سبيل المثال ، تدعي شركة Verbit أن تقنية الذكاء الاصطناعي الداخلية الخاصة بها تكتشف وتصفي ضوضاء الخلفية والصدى وتنسخ مكبرات الصوت بغض النظر عن اللهجة لإنشاء نصوص وتعليقات توضيحية احترافية ومفصلة من مقاطع الفيديو والصوت الحية والمسجلة.

لكن أوتك قال إن معظم منصات التعرف على الكلام الحالية دقيقة فقط بنسبة 75-80٪.

"لن يحل الذكاء الاصطناعي أبدًا محل البشر بشكل كامل لأن المراجعة الشخصية من قبل الناسخين والمراجعين والمحررين ضرورية لضمان جودة عالية ودقة عالية في النسخة النهائية" ، أضاف.

يمكن أيضًا استخدام التعرف على الصوت بشكل أفضل لمنع المتسللين ، كما قال سانجاي جوبتا ، نائب الرئيس العالمي لتطوير المنتجات والشركات في شركة التعرف على الصوت Mitek Systems ، في رسالة بالبريد الإلكتروني.وأضاف أن الأبحاث تشير إلى أنه في غضون عامين ، فإن 20 في المائة من جميع هجمات الاستحواذ الناجحة على الحسابات ستستخدم زيادة الصوت الاصطناعية.

"هذا يعني أنه كلما أصبحت التكنولوجيا المزيفة العميقة أكثر تعقيدًا ، نحتاج في الوقت نفسه إلى إنشاء أمان متقدم يمكنه مكافحة هذه التكتيكات جنبًا إلى جنب مع الصور والفيديو المزيفة العميقة ،" قال جوبتا. "تتطلب مكافحة انتحال الصوت تقنية الكشف عن الحيوية ، القادرة على التمييز بين الصوت الحي ونسخة الصوت المسجلة أو الاصطناعية أو المُنشأة بواسطة الكمبيوتر."

تصحيح 2022-05-04: تصحيح هجاء اسم ريان مونسورات في الفقرة 9.

موصى به: