معماری
خانه / اخبار / هوش مصنوعی گوگل بهتر از انسان‌ها می‌تواند لب خوانی کند

هوش مصنوعی گوگل بهتر از انسان‌ها می‌تواند لب خوانی کند

هوش مصنوعی گوگل

هوش مصنوعی گوگل پس از تماشای هزاران برنامه تلویزیونی اکنون بهتر از انسان‌ها می‌تواند لب خوانی کند. محققین شرکت گوگل در بخش “DeepMind” و دانشگاه آکسفورد با استفاده از هوش مصنوعی موفق به ساختن دقیق‌ ترین برنامه لب ‌خوانی شده‌اند.

دانشمندان با استفاده از هزاران ساعت برنامه تلویزیونی شبکه  BBC، موفق به آموزش یک سری شبکه عصبی شدند که قادر است تصاویر ویدیوئی را با دقت ۴۶.۸ درصد لب‌خوانی کرده و به نوشتار تبدیل کند. شاید در نگاه اول خیلی تاثیر گذار به نظر نیاید، مخصوصا در مقایسه با نرخ دقت هوش مصنوعی در بخش تبدیل صداها به نوشتار، اما در مقایسه با یک لب‌خوان حرفه‌ای (انسان) که تنها ۱۲.۴ درصد دقت در لب ‌خوانی داشت، این تکنولوژی فوق العاده عمل می‌کند.

این تحقیق در راستای  تحقیقات گروهی دیگر در اوایل این ماه در دانشگاه آکسفورد صورت گرفته است. دانشمندان گروه اول با استفاده از تکنیک‌ های مشابه، موفق به ساخت برنامه‌ لب خوانی با نام “LipNet” شدند که در مقایسه با دقت انسانی که ۵۲.۳ درصد بود، برنامه موفق به لب ‌خوانی با دقت ۹۳.۴ درصد شد.

با این وجود “LipNet” بر روی ویدیوهای از پیش ضبط شده توسط داوطلبان که جملات با قواعد خاصی را تکرار می‌کردند، تست و اجرا شده بود. در حالی که نرم‌افزار “DeepMind”  که با عنوان “تماشا، شنیدن، کلمات، نوشتن” شناخته شده است بر روی ویدیوهای خیلی پیچیده ‌تر اجرا شد که در آن مکالمات افراد در برنامه ‌های سیاسی شبکه  BBC، توسط این برنامه به متن تبدیل شد.

بیش از ۵۰۰۰ ساعت از برنامه‌های تلویزیونی از جمله “Newsnight ،  Question Time و World Today” برای آموزش این برنامه انتخاب شدند تا مراحل “تماشا، شنیدن، ساماندهی کلمات  و نوشتن” را به بهترین نحو ممکن توسط برنامه اجرا شود. برنامه‌های تلویزیونی شامل ۱۱۸۰۰۰ جمله مختلف و ۱۷۵۰۰ کلمه منحصر به فرد بود، در حالی که تست “LipNet” تنها ۵۱ کلمه را در بر می‌گرفت.

محققان “DeepMind” اظهار می‌کنند که این برنامه برای مقاصد مختلفی کاربرد دارد، از جمله افراد دارای ضعف شنوایی که در درک مکالمات با مشکل مواجه هستند. همچنین برای به متن درآوردن فیلم‌های صامت یا استفاده در دستیارهای دیجیتالی از جمله “Siri” یا “Alexa” (برای استفاده در مکان‌های عمومی) می‌تواند کاربردی باشد.

هوش مصنوعی گوگل
گوگل

اما زمانی که افراد می‌فهمند که این تکنولوژی می‌تواند مکالماتشان را لب‌ خوانی کند، اولین فکری که به ذهنشان می‌رسد مسائل نظارتی و امنیتی خواهد بود. دانشمندان گفته اند که هنوز اختلاف زیادی در تبدیل  لب خوانی به نوشتار بین ویدیوهای با کیفیت HD و دوربین‌های نظارتی با نرخ فریم پایین، وجود دارد. اما نمی‌توان از بین بردن این خلاء توسط هوش مصنوعی را نادیده گرفت.

منبع : theverge

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *