يمكن لمنظمة العفو الدولية الآن فهم مقاطع الفيديو الخاصة بك من خلال مشاهدتها

جدول المحتويات:

يمكن لمنظمة العفو الدولية الآن فهم مقاطع الفيديو الخاصة بك من خلال مشاهدتها
يمكن لمنظمة العفو الدولية الآن فهم مقاطع الفيديو الخاصة بك من خلال مشاهدتها
Anonim

الوجبات الجاهزة الرئيسية

  • يقول الباحثون إنهم يستطيعون تعليم الذكاء الاصطناعي تسمية مقاطع الفيديو من خلال المشاهدة والاستماع.
  • يتعلم نظام الذكاء الاصطناعي تمثيل البيانات لالتقاط المفاهيم المشتركة بين البيانات المرئية والصوتية.
  • إنه جزء من جهد لتعليم الذكاء الاصطناعي لفهم المفاهيم التي لا يواجه البشر صعوبة في تعلمها ولكن أجهزة الكمبيوتر تجد صعوبة في استيعابها.

Image
Image

يمكن لنظام ذكاء اصطناعي جديد (AI) مشاهدة مقاطع الفيديو الخاصة بك والاستماع إليها وتسمية الأشياء التي تحدث.

طور باحثو معهد ماساتشوستس للتكنولوجيا أسلوبًا يعلم الذكاء الاصطناعي التقاط الإجراءات المشتركة بين الفيديو والصوت.على سبيل المثال ، يمكن لطريقتهم أن تفهم أن فعل طفل يبكي في مقطع فيديو مرتبط بالكلمة المنطوقة "بكاء" في مقطع صوتي. إنه جزء من جهد لتعليم الذكاء الاصطناعي كيفية فهم المفاهيم التي لا يواجه البشر صعوبة في تعلمها ، لكن أجهزة الكمبيوتر تجد صعوبة في استيعابها.

"نموذج التعلم السائد ، التعلم الخاضع للإشراف ، يعمل بشكل جيد عندما يكون لديك مجموعات بيانات موصوفة بشكل جيد وكاملة ،" قال خبير الذكاء الاصطناعي فيل ويندر لـ Lifewire في مقابلة عبر البريد الإلكتروني. "لسوء الحظ ، نادرًا ما تكتمل مجموعات البيانات لأن العالم الحقيقي لديه عادة سيئة في عرض مواقف جديدة."

ذكاء اصطناعي أكثر ذكاءً

تواجه أجهزة الكمبيوتر صعوبة في اكتشاف السيناريوهات اليومية لأنها تحتاج إلى معالجة البيانات بدلاً من الصوت والصور مثل البشر. عندما "يرى" الجهاز صورة ، يجب عليه ترميز تلك الصورة في بيانات يمكنه استخدامها لأداء مهمة مثل تصنيف الصورة. يمكن أن يتعثر الذكاء الاصطناعي عندما تأتي المدخلات بتنسيقات متعددة ، مثل مقاطع الفيديو ومقاطع الصوت والصور.

"التحدي الرئيسي هنا هو ، كيف يمكن للآلة محاذاة هذه الأساليب المختلفة؟ كبشر ، هذا سهل بالنسبة لنا" ، هكذا قال ألكسندر ليو ، الباحث في معهد ماساتشوستس للتكنولوجيا والمؤلف الأول لورقة بحثية حول هذا الموضوع ، في اصدار جديد. "نرى سيارة ثم نسمع صوت سيارة تسير بجانبها ، ونعلم أن هذين الصوتين هما نفس الشيء. ولكن بالنسبة للتعلم الآلي ، فإن الأمر ليس بهذه البساطة."

طور فريق Liu تقنية الذكاء الاصطناعي التي يقولون إنها تتعلم تمثيل البيانات لالتقاط المفاهيم المشتركة بين البيانات المرئية والصوتية. باستخدام هذه المعرفة ، يمكن لنموذج التعلم الآلي الخاص بهم تحديد مكان حدوث إجراء معين في مقطع فيديو وتسميته.

يأخذ النموذج الجديد البيانات الأولية ، مثل مقاطع الفيديو والتعليقات النصية المقابلة لها ، ويقوم بترميزها عن طريق استخراج الميزات أو الملاحظات حول الكائنات والإجراءات في الفيديو. ثم تقوم بعد ذلك بتعيين نقاط البيانات هذه في شبكة ، تُعرف باسم مساحة التضمين. يقوم النموذج بتجميع البيانات المتشابهة معًا كنقاط مفردة في الشبكة ؛ يتم تمثيل كل نقطة من نقاط البيانات ، أو المتجهات ، بكلمة فردية.

على سبيل المثال ، قد يتم تعيين مقطع فيديو لشخص يلعب بألعاب الخفة إلى متجه يسمى "شعوذة".

صمم الباحثون النموذج بحيث يمكنه استخدام 1000 كلمة فقط لتسمية المتجهات. يمكن للنموذج أن يقرر الإجراءات أو المفاهيم التي يريد ترميزها في متجه واحد ، ولكن يمكنه فقط استخدام 1000 متجه. يختار النموذج الكلمات التي يعتقد أنها تمثل البيانات بشكل أفضل.

"إذا كان هناك مقطع فيديو عن الخنازير ، فقد يقوم النموذج بتعيين كلمة" خنزير "لأحد المتجهات البالغ عددها 1000. ثم ، إذا سمع النموذج شخصًا يقول كلمة" خنزير "في مقطع صوتي ، وأوضح ليو أنه لا يزال يتعين عليه استخدام نفس المتجه لتشفير ذلك.

مقاطع الفيديو الخاصة بك ، فك الشفرة

يمكن أن تساعد أنظمة وضع العلامات الأفضل مثل تلك التي طورها معهد ماساتشوستس للتكنولوجيا في تقليل التحيز في الذكاء الاصطناعي ، كما قال ماريان بيسزيديس ، رئيس قسم البحث والتطوير في شركة المقاييس الحيوية Innovatrics ، لـ Lifewire في مقابلة عبر البريد الإلكتروني. اقترح بيسزيديس أن صناعة البيانات يمكنها عرض أنظمة الذكاء الاصطناعي من منظور عملية التصنيع.

"تقبل الأنظمة البيانات الأولية كمدخلات (مواد خام) ، ومعالجتها مسبقًا ، واستيعابها ، واتخاذ قرارات أو تنبؤات وتحليلات المخرجات (سلع تامة الصنع) ،" قال بيسزيدس. "نطلق على هذه العملية اسم" مصنع البيانات "، ومثل عمليات التصنيع الأخرى ، يجب أن تخضع لضوابط الجودة. تحتاج صناعة البيانات إلى التعامل مع انحياز الذكاء الاصطناعي على أنه مشكلة جودة.

"من وجهة نظر المستهلك ، فإن البيانات ذات التسمية الخاطئة تجعل البحث عبر الإنترنت على سبيل المثال عن صور / مقاطع فيديو معينة أكثر صعوبة ،" أضاف بيسزيدس. "باستخدام الذكاء الاصطناعي المطور بشكل صحيح ، يمكنك عمل العلامات تلقائيًا ، أسرع بكثير وأكثر حيادية من الملصقات اليدوية."

Image
Image

لكن نموذج معهد ماساتشوستس للتكنولوجيا لا يزال لديه بعض القيود. على سبيل المثال ، ركز بحثهم على البيانات من مصدرين في وقت واحد ، ولكن في العالم الحقيقي ، يواجه البشر أنواعًا عديدة من المعلومات في وقت واحد ، كما قال ليو

أضاف ليو"ونعلم أن 1000 كلمة تعمل على هذا النوع من مجموعة البيانات ، لكننا لا نعرف ما إذا كان يمكن تعميمها على مشكلة العالم الحقيقي".

يقول باحثو معهد ماساتشوستس للتكنولوجيا إن أسلوبهم الجديد يتفوق على العديد من النماذج المماثلة. إذا كان من الممكن تدريب الذكاء الاصطناعي على فهم مقاطع الفيديو ، فقد تتمكن في النهاية من تخطي مشاهدة مقاطع الفيديو الخاصة بإجازة صديقك والحصول على تقرير تم إنشاؤه بواسطة الكمبيوتر بدلاً من ذلك.

موصى به: