استفاده از خوشه بندی در جریان لاگ به‌منظور تشخیص ناهنجاری های سیستم

استفاده از خوشه بندی در جریان لاگ به‌منظور تشخیص ناهنجاری های سیستم


استفاده از خوشه بندی در جریان لاگ به‌منظور تشخیص ناهنجاری های سیستم

نوع: Type: پایان نامه

مقطع: Segment: کارشناسی ارشد

عنوان: Title: استفاده از خوشه بندی در جریان لاگ به‌منظور تشخیص ناهنجاری های سیستم

ارائه دهنده: Provider: مهسا مرادی - رشته کامپیوتر

اساتید راهنما: Supervisors: آقای دکتر مرتضی یوسف صنعتی

اساتید مشاور: Advisory Professors:

اساتید ممتحن یا داور: Examining professors or referees: آقای دکتر مهدی سخایی نیا و آقای دکتر رضا محمدی

زمان و تاریخ ارائه: Time and date of presentation: 1402/07/25 ساعت 18:30

مکان ارائه: Place of presentation: کلاس 27

چکیده: Abstract: امروزه علم داده‌کاوی بستری فراهم کرده است تا بتوان با به‌کارگیری فناوری‌های جدیدی مانند هوش مصنوعی و یادگیری ‌ماشین، به تجزیه¬وتحلیل و استخراج مفاهیم نهفته در داده‌ها پرداخت و از آنها برای کارهای مختلف و مهم استفاده کرد. داده‌کاوی علم استخراج الگوها، اطلاعات و تحلیل از مجموعه¬داده‌های خامی است که در یک سازمان یا در هر مجموعه دیگری تولید شده است. این داده¬ها با سرعت بالایی تولید می¬شوند که گاهی اوقات جریانی از داده¬ها را تشکیل می¬دهند. جریان داده انتقال مداوم داده‌ها با سرعت ثابت و بالا است. در برخی موارد سیستم¬های اطلاعاتی، جریانی از لاگ را تولید می-کنند. یک لاگ منبع غنی اطلاعاتی برای تشخیص و پیش‌بینی خطاها یا رفتارهای ناهنجار موجود در سیستم¬ها است که شامل تمامی رویداد‌ها، اتفاقات و خطاها در اجرای یک نرم‌افزار یا سیستم‌عامل است. این خطاها را می‌توان از طریق تجزیه‌وتحلیل لاگ¬ها با استفاده از الگوریتم‌های کلان‌داده کشف کرد. یکی از روش¬ها برای تجزیه¬وتحلیل داده¬های جریانی و تشخیص ناهنجاری¬ها، الگوریتم خوشه¬بندی است. هدف از خوشه¬بندی داده¬ها، افراز مجموعه¬ای از اشیا به گروه¬های مجزا است که یکی از این الگوریتم¬های خوشه¬بندی جریان داده، الگوریتم AutoCloud است. AutoCloud یک الگوریتم آنلاین و تک‌مرحله‌ای بازگشتی برای خوشه¬بندی جریان داده¬ها بر مبنای فاصله اقلیدسی است. این الگوریتم بر اساس مفهوم تجزیه‌وتحلیل داده Typicality و Eccentricity شکل‌گرفته است که عمدتاً برای کارهای تشخیص ناهنجاری استفاده می¬شود. همچنین AutoCloud قادر به مدیریت‌کردن مشکلات ذاتی در جریان داده¬ها مانند رانش مفهوم و تکامل مفهوم است. ولی باتوجه‌به این که دقت انجام عمل در AutoCloud در مورد اکثر مجموعه¬داده¬ها خیلی مناسب نیست، به نظر می¬رسد که استفاده از انواع فاصله¬های دیگر، مناسب¬تر باشد و با افزودن روش¬هایی به AutoCloud، دقت بهبود یابد؛ بنابراین در این پژوهش سعی شده است با پیاده¬سازی چند ایده، بررسی شود که آیا با تغییر دادن AutoCloudمی‌توان منجر به بهبود آن شد یا خیر. ایده اول، استفاده از فاصله ماهالانوبیسی برای این الگوریتم است. نتایج نشان می¬دهد که اگر AutoCloud بر مبنای فاصله اقلیدسی باشد، بهتر از فاصله ماهالانوبیسی عمل می¬کند. به همین دلیل استفاده از فاصله ماهالانوبیسی در AutoCloud خیلی مؤثر نیست. در AutoCloud، تشکیل خوشه¬ها می¬تواند در جذب داده¬ها تأثیرگذار باشد؛ بنابراین ایده دوم اضافه‌کردن الگوریتم Kmeans به ابتدای AutoCloudاست. در این ایده، 1000 نمونه داده¬ی اول به‌صورت آفلاین و مابقی داده¬ها به‌صورت آنلاین پردازش می¬شوند. هدف از ایده دوم این است که خوشه¬هایی توسط Kmeans ایجاد شوند و بعد از آن داده¬ها با Eccentricity جذب شوند تا با استفاده از Kmeans و مفهوم Eccentricity و باتوجه‌به انتخاب مناسب خوشه¬ها، بتوان خوشه¬بندی بهتری داشت. به طور کلی نتایج به‌دست‌آمده با این روش، بدتر از روش پایه شده است. ایده سوم مانند ایده دوم عمل می¬کند با این تفاوت که حد آستانه برای شرط جذب نمونه داده¬ها به خوشه¬ها، تغییر یافته است. حد آستانه با استفاده از مفهوم Eccentricity در خوشه¬های Kmeans، محاسبه گردیده است. در نهایت جهت تشخیص ناهنجاری¬ها در لاگ، اصل "σ gap" در الگوریتم AutoCloudپیاده¬سازی شده است. نتایج نشان می¬دهد که دقت تشخیص ناهنجاری در لاگ با استفاده از روش پیشنهادی، بسیار پایین است. نتایج نشان می¬دهد که روش¬های پیشنهادی، بدتر از الگوریتم AutoCloud عمل می-کند.

فایل: ّFile: