رساله دکتری خانم مهندس مه‌لقا افراسیابی با عنوان «تشخیص تعامل انسان در ویدیو با استفاده از شبکه¬های عصبی عمیق»

رساله دکتری خانم مهندس مه‌لقا افراسیابی با عنوان «تشخیص تعامل انسان در ویدیو با استفاده از شبکه¬های عصبی عمیق»


تاریخ انتشار : Publish : نسخه قابل چاپ Print

دانشکده فنی و مهندسی

گروه آموزشی مهندسی کامپیوتر

جلسه دفاعیه پایان نامه برای دریافت درجه دکتری در رشته مهندسی کامپیوتر گرایش هوش مصنوعی

عنوان:

تشخیص تعامل انسان در ویدیو با استفاده از شبکه­های عصبی عمیق

استاد راهنما:

دکتر حسن ختن­لو

استاد مشاور:

دکتر محرم منصوری زاده

اساتید داور:

دکتر میرحسین دزفولیان

دکتر نصرالله مقدم چرکری

دکتر اعظم خلیلی

 پژوهشگر:

 مه لقا افراسیابی

یکشنبه  30/04/1398 ساعت 16:30

آمفی تئاتر دانشکده مهندسی

 

 

Bu-Ali Sina University

 

Faculty of engineering

Department of Computer Engineering

PhD Thesis Defense

 

Title

 

Human interaction recognition using deep learning

 

Supervisor:

Dr. Hassan Khotanlou

 

Advisor:

Dr. Muharram Mansoorizadeh

 

Reviewers:

Dr. Mir Hossein Dezfulian

Dr. Nasrollah Moghadam Charkari

Dr. Azam Khalili

 

By:

Mahlagha Afrasiabi

 

July, 21, 2019

4:30 PM

 

بسیاری از ویدیوهایی که انسان­ها را به تصویر می­کشد، دارای فعالیت­هایی است که بین انسان­ها وجود دارد و نشان­دهنده فرهنگ و رابطه بین آن­هاست. با پیشرفت تشخیص کنش­های انسان در ویدیو، محققان به شناخت تعامل انسان- انسان به طور خودکار پرداخته­اند. که تشخیص زودهنگام آن اهمیت  بیشتری در تعامل انسان و کامپیوتر و امنیت و نظارت دارد. اما این موضوع هنوز یک مسئله چالش­برانگیز است، که این چالش می­تواند ناشی ازتغییرات تصویر، نحوه اجرای متفاوت افراد در انجام یک تعامل و .. باشد. روش­های موجود این حوزه بر اساس ویژگی به ویژگی­های دستی و ویژگی­های یادگرفته شده تقسیم می­شوند. ویژگی­های دستی روی اطلاعات محلی یا سراسری مکانی یا زمان-مکانی تمرکز می­کند، در حالی­که ویژگی­های یادگرفته شده از همه پتانسیل موجود در تصویر و ویدیو استفاده می­کند و تا حدودی چالش­های تنظیمات ضبط، ظاهر فرد، اندازه تصویر و نقطه دید را کاهش داده­اند. انتظار ما این است که استفاده از استخراج ویژگی یادگرفته شده در مدل­های پیشنهادی می­تواند چالش­ها را تا حد امکان کاهش دهد. به منظور استخراج این ویژگی­ها از شبکه­های عمیق که توانایی بالایی در استخراج ویژگی دارند، استفاده شده است. در اولین مدل پیشنهادی به نام Dual-Actor CNN از دو شبکه همسان برای استخراج ویژگی­های دو فرد در حال تعامل استفاده شده است. که این مدل  به­علت استفاده از شبکه­های همسان و به اشتراک­گذاری وزن­ها باعث می­شود چالش جهت و نقطه دید انجام کنش حل شود. در روش پیشنهادی دیگر، مسئله در قالب سری زمانی به نام DTW-CNN مدل می­شود، فرض بر این است که استفاده از روش پیچ­وتاب زمانی پویا بتواند بر چالش نرخ زمان اجرای تعامل غلبه کند. از آنجایی­که انجام هر کنش یا تعامل ماهیتی فازی دارد و نمی­توان حرکت مشخصی برای تعریف آن در نظر گرفت، استفاده از روش فازی می­تواند باعث افزایش دقت تشخیص تعامل شود، در مدل پیشنهادی Fuzzy-Relation CNN  از حرکات افراد در ویدیو دو تصویر فازی ساخته می­شود که شامل حرکات افراد در حال تعامل است. این تصاویر ایجاد شده اطلاعات پیش­زمینه و نا مرتبط به تعامل را حذف می­کند و تغییرات مهم حرکت افراد را با توجه به زمان آن را نگه میدارد. سپس از تصویر ایجاد شده ویژگی استخراج می­شود. در این رساله منظور از پیش­بینی تعامل توانایی تشخیص مدل­ها در تمام نرخ­های مشاهده از ویدئو است. سه مدل بر روی مجموعه داده­های TV human interaction، BIT  و UT ارزیابی شده­اند. نتایج نشان می­دهد که دقت این مدل­ها برای پیش­بینی تعامل نسبت به روش­های پیشین بالاتر بوده و در بین این سه مدل روش Dual-Actor  دقت بالاتری داشته است.

 

 

 

 

Understanding video is an important application of computer vision, which is related to the automatic interpretation of videos. One of its main goals is to detect human activity. Human activity is divided into four levels:  Gesture is an elementary movement of the human body part and action is a set of body motions of a single performer. Interaction is a more complex phenomenon that involves co-related actions of two or more subjects (e.g. handshaking), or a subject and an object (e.g. closing a window). Group activities are performed by two or more groups of objects.

The goal of prediction or early detection of an interaction is to deduce it in the early stages of interaction. This recognition can prevent dangerous events in the surveillance environments, and also, detect human-robot interactions. Unlike interaction recognition, interaction prediction needs to be derived from the action before it happens.

Human interaction prediction is inherently a challenging problem; first of all, subjects have different appearances and move continuously. A large variety of poses, including continuous behavior over time, are difficult to model. Further challenges arise with realistic scenarios, such as cluttered backgrounds, lighting variations, partially or even fully occluded target objects, and the varying speed of performing actions.

Recently, deep neural networks have shown great power in learning and representation of images and videos. Among these networks, convolutional neural network (CNN) is used to capture both spatial and temporal information. A set of consecutive optical flow images are fed to a CNN to extract temporal features.

In thesis three models based on CNN are presented. In the first model, a dual-actor CNN is proposed, which consists of two branches sharing exactly the same architecture and the same weights.

In the second model, DTW-CNN is presented that uses flow coded images as low-level temporal information and extracts deep temporal features using CNNs. The sequence of deep features is then modeled as a time series, by which the problem of action prediction is reduced to classic time series prediction. The prediction algorithm is a DTW based associative lookup that treats the training set as the lookup context and matches a partially observed sequence with the training instances. Then, the sequence is assigned the label of its closest match.

In the third model, Fuzzy Relation CNN is presented. In this method, a fuzzy image is created to display motion information. This image contains important information for moving participants of the interaction.

The proposed methods are evaluated on three widely used interaction datasets, namely the BIT-Interaction dataset, the UT Interaction dataset and TV human interaction dataset. The results showed that the proposed methods are able to explicitly model an interaction.

 

 

1- مشخصات فردی

نام: مه لقا     نام خانوادگی : افراسیابی

                                          

پست الکترونیکی: m.afrasiabi@basu.ac.ir

 

 

2- سوابق تحصیلات دانشگاهی

مقطع تحصیلی و رتبه علمی

رشته تحصیلی

محل تحصیل

سال اخذ مدرک

کارشناسی

مهندسی کامپیوتر

دانشگاه بوعلی سینا همدان

1387

 

کارشناسی ارشد

مهندسی کامپیوتر

دانشگاه بوعلی سینا همدان

1389

 

دکترای تخصصی

مهندسی کامپیوتر

دانشگاه بوعلی سینا همدان

 

عنوان پایان نامه دوره کارشناسی ارشد: استخراج ضایعه MS  در تصاویر MRI با استفاده از روش فازی

عنوان پایان نامه دوره دکتری: تشخیص تعامل دو انسان در ویدیو با استفاده از روش های یادگیری عمیق

 

 

 

·        رتبه علمی کسب شده در دوران تحصیل

ü      رتبه دوم کارشناسی

ü      رتبه اول کارشناسی ارشد

3- سوابق آموزشی

·                    همکاری آموزشی با دانشگاه­ها :

ü      بوعلی سینا همدان

ü      صنعتی همدان

ü      پیام نور همدان

ü      موسسه توسعه آبادانی و روستاها

4- سوابق پژوهشی

·                    فرصت مطالعاتی:

§         دانشگاه آمستردام هلند 8 ماه

 

·                    مقاله علمی

·  Mahlagha Afrasiabi , Hassan Khotanlou and Muharram Mansoorizadeh,  DTW-CNN: time series-based human interaction prediction in videos using CNN-extracted features, The visual computer, 2019.

· Mahlagha Afrasiabi  and Hassan Khotanlou, Human-Human interaction recognition using Adaptive neuro-fuzzy inference system, National and First International Conference on Soft Computing, University of Guilan, 2016

· Rostami, Zahra, Mahlagha Afrasiabi, and Hassan Khotanlou. "Skeleton-based action recognition using spatio-temporal features with convolutional neural networks." Knowledge-Based Engineering and Innovation (KBEI), 2017 IEEE 4th International Conference on. IEEE, 2017.

· Ahmadipour, Zohreh, Mahlagha Afrasiabi, and Hassan Khotanlou. "Multiple human detection in images based on differential evolution and HOG-LBP." Information and Knowledge Technology (IKT), 2016 Eighth International Conference on. IEEE, 2016.

· Abbase, S., Khotanlou, H., Afrasiabi, M., & Asgari, A."Automatic identification of chromosomal abnormalities in metaphase karyotype using paired images in human chromosomes." Knowledge-Based Engineering and Innovation (KBEI), 2015 2nd International Conference on. IEEE, 2015.

· Khotanlou, Hassan, and Mahlagha Afrasiabi. "Feature selection in order to extract multiple sclerosis lesions automatically in 3D brain MR images using combination of Support Vector Machine and Genetic algorithm." Journal of Medical Signals and Sensors 2.4 (2012).

· Khotanlou, Hassan, and Mahlagha Afrasiabi. "Segmentation of multiple sclerosis lesions in brain MR images using spatially constrained possibilistic fuzzy C-means classification." Journal of medical signals and sensors 1.3 (2011).

*    فارسی

*    افراسیابی, مه لقا، حسن ختن لو و محرم منصوری زاده، شبکه‌ عصبی عمیق برای پیش‌بینی تعامل انسان در ویدئو با استفاده از روابط فازی و شار نوری، مجله برق تبریز، 1398.

*      رستمی, زهرا؛ مه لقا افراسیابی و حسن ختن لو، ۱۳۹۶، تشخیص کنش انسان در تصاویر RGBD مبتنی بر داده های اسکلتی بدن با استفاده از شبکه های کانولوشن، دومین کنفرانس ملی محاسبات نرم، گیلان -رودسر، دانشگاه گیلان.

*      افراسیابی, مه لقا؛ فروغ جعفرپور و حسن ختن لو، ۱۳۹۲، تشخیص هویت براساس متون دستنویس فارسی با استفاده ازK- نزدیکترین همسایه، پنجمین کنفرانس ملی مهندسی برق و الکترونیک ایران، گناباد، دانشگاه آزاد اسلامی واحد گناباد

*      افراسیابی, مه لقا و حسن ختن لو، ۱۳۹۰، استخراج اتوماتیک ضایعات multiple sclerosis)MS در تصاویر سه بعدی MR مغزی با استفاده از یک سیستم استنتاج فازی، یازدهمین کنفرانس سیستم های فازی ایران، زاهدان، دانشگاه سیستان و بلوچستان

*      افراسیابی, مه لقا؛ زینب فرهمندپور و حسن ختن لو، ۱۳۹۰، تشخیص اعداد دستنویس عربی با استفاده از ترکیب الگوریتم ژنتیک و شبکه عصبی، سومین کنفرانس مهندسی برق و الکترونیک ایران، گناباد، دانشگاه آزاد اسلامی واحد گناباد

*      افراسیابی, مه لقا و حسن ختن لو، ۱۳۸۹، استخراج اتوماتیک ضایعات multiple sclerosis(MS در تصاویر MR مغزی بوسیله الگوریتم MPFCM، ششمین کنفرانس ماشین بینایی و پردازش تصویر، اصفهان، دانشگاه اصفهان

*      افراسیابی, مه لقا و حسن ختن لو، ۱۳۸۹، ارائه یک روش جدید بازیابی تصاویر براساس رنگ، بافت و شکل، اولین کنفرانس دانشجویی فناوری اطلاعات ایران، سنندج، دانشگاه کردستان

*      افراسیابی, مه لقا و محرم منصوری زاده، ۱۳۸۹، تشخیص امضا با استفاده از شبکه عصبی و مقایسه ی امضای ایرانی و خارجی، اولین کنفرانس دانشجویی فناوری اطلاعات ایران، سنندج، دانشگاه کردستان

5- مهارتهای نرم افزاری/ دوره­های آموزشی گذرانده شده

·        برنامه نویسی پایتون، C++، PHP

·        آشنایی با نرم افزار MATLAB

·        آشنایی  با کتابخانه  Caffe