الوجبات الجاهزة الرئيسية
- تتسابق الشركات لإيجاد طرق لجعل الكلام الناتج عن الكمبيوتر أكثر واقعية.
- كشفت NVIDIA مؤخرًا عن أدوات يمكنها التقاط صوت الكلام الطبيعي من خلال السماح لك بتدريب ذكاء اصطناعي بصوتك.
- يقول أحد الخبراءالتنغيم والعاطفة والموسيقى هي الميزات التي لا تزال أصوات الكمبيوتر تفتقر إليها.
قد يبدو الكلام الناتج عن الكمبيوتر قريبًا أكثر إنسانية.
كشفت شركة NVIDIA المصنعة لأجزاء الكمبيوتر مؤخرًا عن أدوات يمكنها التقاط صوت الكلام الطبيعي من خلال السماح لك بتدريب الذكاء الاصطناعي بصوتك.يمكن للبرنامج أيضًا توصيل كلمات أحد المتحدثين باستخدام صوت شخص آخر. إنه جزء من دفعة مزدهرة لجعل الكلام على الكمبيوتر أكثر واقعية.
"تتيح تقنية الذكاء الاصطناعي الصوتي المتقدمة للمستخدمين التحدث بشكل طبيعي ، والجمع بين العديد من الاستفسارات في جملة واحدة والقضاء على الحاجة إلى تكرار التفاصيل من الاستعلام الأصلي باستمرار ،" مايكل زاغورسك ، كبير مسؤولي التشغيل في شركة SoundHound للتعرف على الكلام ، أخبر Lifewire في مقابلة عبر البريد الإلكتروني.
"إضافة لغات متعددة ، المتوفرة الآن على معظم منصات الذكاء الاصطناعي الصوتية ، تجعل المساعدين الصوتيين الرقميين متاحين في مناطق جغرافية أكثر وللمزيد من السكان" ، أضاف.
ارتفاع الكلام
صوت Alexa من Amazon و Apple's Siri أفضل كثيرًا من الكلام على الكمبيوتر منذ عقد من الزمان ، لكن لن يتم الخلط بينهما كأصوات بشرية حقيقية في أي وقت قريب.
لجعل صوت الكلام الاصطناعي أكثر طبيعية ، طور فريق بحث تحويل النص إلى كلام في NVIDIA نموذج RAD-TTS. يسمح النظام للأفراد بتدريس نموذج تحويل النص إلى كلام (TTS) بأصواتهم ، بما في ذلك السرعة والنغمة والجرس وعوامل أخرى.
استخدمت الشركة نموذجها الجديد لبناء المزيد من السرد الصوتي الحواري لسلسلة الفيديو I Am AI.
"باستخدام هذه الواجهة ، يمكن لمنتج الفيديو لدينا تسجيل نفسه وهو يقرأ نص الفيديو ثم يستخدم نموذج الذكاء الاصطناعي لتحويل حديثه إلى صوت الراوية الأنثوية. وباستخدام هذا السرد الأساسي ، يمكن للمنتج بعد ذلك توجيه الذكاء الاصطناعي مثل كتب NVIDIA على موقعه على الإنترنت: "يقوم الممثل الصوتي بتعديل الكلام المركب للتأكيد على كلمات محددة وتعديل إيقاع السرد للتعبير بشكل أفضل عن نغمة الفيديو".
أصعب مما يبدو
يقول الخبراء إن جعل صوت الكلام الناتج عن الكمبيوتر طبيعيًا يمثل مشكلة صعبة.
"تحتاج إلى تسجيل مئات الساعات من صوت شخص ما لإنشاء نسخة كمبيوتر منه ،" قال ناظم راجيموف ، الرئيس التنفيذي لشركة برامج تحويل النص إلى كلام Kukarella ، لـ Lifewire في مقابلة عبر البريد الإلكتروني. ويجب أن يكون التسجيل بجودة عالية ومسجل في استوديو احترافي.كلما زاد عدد ساعات الكلام الجيد الذي تم تحميله ومعالجته ، كانت النتيجة أفضل."
يمكن استخدام تحويل النص إلى كلام في الألعاب ، لمساعدة الأفراد ذوي الإعاقات الصوتية ، أو لمساعدة المستخدمين على الترجمة بين اللغات بصوتهم.
قال راجيموفالتنغيم والعاطفة والموسيقى هي الميزات التي لا تزال أصوات الكمبيوتر تفتقر إليها.
وأضاف أنه إذا كان بإمكان الذكاء الاصطناعي إضافة هذه الروابط المفقودة ، فإن الكلام الناتج عن الكمبيوتر "سيكون غير قابل للتمييز عن أصوات الممثلين الحقيقيين". "هذا عمل قيد التقدم. ستتمكن الأصوات الأخرى من التنافس مع مضيفي الراديو. سترى قريبًا أصواتًا يمكنها الغناء وقراءة الكتب الصوتية."
أصبحت تقنية الكلام أكثر شهرة في مجموعة واسعة من الشركات.
قال زاغورسك: "لقد كانت صناعة السيارات مؤخرًا من تبني الذكاء الاصطناعي الصوتي كطريقة لخلق تجارب قيادة أكثر أمانًا وترابطًا".
"منذ ذلك الحين ، أصبح المساعدون الصوتيون في كل مكان بشكل متزايد حيث تبحث العلامات التجارية عن طرق لتحسين تجارب العملاء وتلبية الطلب على طرق أسهل وأكثر أمانًا وأكثر ملاءمة وكفاءة وصحة للتفاعل مع منتجاتهم وخدماتهم."
عادةً ما يحول الذكاء الاصطناعي الصوتي الاستعلامات إلى ردود في عملية من خطوتين تبدأ بنسخ الكلام إلى نص باستخدام التعرف التلقائي على الكلام (ASR) ثم إدخال هذا النص في نموذج فهم اللغة الطبيعية (NLU).
يجمع نهج SoundHound هاتين الخطوتين في عملية واحدة لتتبع الكلام في الوقت الفعلي. تدعي الشركة أن هذه التقنية تسمح للمساعدين الصوتيين بفهم معنى استفسارات المستخدم ، حتى قبل أن ينتهي الشخص من التحدث.
التطورات المستقبلية في الكلام على الكمبيوتر ، بما في ذلك توفر مجموعة متنوعة من خيارات الاتصال من المدمج فقط (لا يتطلب اتصال سحابي) إلى الهجين (المدمج بالإضافة إلى السحابة) والسحابة فقط "ستوفر المزيد من الخيارات للشركات عبر الصناعات من حيث التكلفة والخصوصية وتوافر قوة المعالجة ، "قال زاغوريسك.
قالتNVIDIA إن نماذجها الإخبارية للذكاء الاصطناعي تتجاوز أعمال التعليق الصوتي.
كتبت الشركة "يمكن استخدام تحويل النص إلى كلام في الألعاب ، لمساعدة الأفراد ذوي الإعاقات الصوتية ، أو لمساعدة المستخدمين على الترجمة بين اللغات بأصواتهم". "يمكنها حتى إعادة إنشاء عروض المطربين الأيقونيين ، بحيث لا تتطابق فقط مع لحن الأغنية ولكن أيضًا التعبير العاطفي وراء الغناء."