МОДЕЛЬ ВИЯВЛЕННЯ ШКІДЛИВОГО ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ НА ОСНОВІ МАШИННОГО НАВЧАННЯ

Автор(и)

  • Алан Нафієв Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Україна https://orcid.org/0009-0004-8604-377X
  • Дмитро Ланде Інститут проблем реєстрації інформації Національної академії наук України, Україна https://orcid.org/0000-0003-3945-1178

DOI:

https://doi.org/10.24025/2306-4412.3.2023.286374

Ключові слова:

виявлення вторгнень, PE формат, вилучення ознак, дизасембльовані інструкції, машина опорних векторів

Анотація

З кожним роком автори шкідливого програмного забезпечення створюють все більш досконалі та хитромудрі шкідливі програми, які можуть завдати шкоди нашим комп’ютерам. Традиційні методи, які ґрунтуються на пошуку сигнатур програм, перестають бути ефективними для вирішення проблеми детекції шкідливого програмного забезпечення. На зміну приходить автоматизація аналізу файлів, яка є більш перспективним підходом для виявлення підозрілих файлів. Для виявлення таких програм все частіше використовують методи машинного навчання. Однак для виконання своїх операцій такі рішення можуть потребувати багато обчислювальних ресурсів. Тому виникає задача створення оптимальної моделі машинного навчання з погляду швидкості навчання і точності детекції шкідливого програмного забезпечення. Крім того, зазвичай одного методу представлення даних недостатньо для якісного виявлення шкідливих ознак файлів. Тому в цій роботі буде описано два різні методи: один підхід ґрунтується на бінарній інформації файлу, другий полягає у використанні трасувальних інструкцій. Мета цієї роботи – підвищення ефективності виявлення шкідливого програмного забезпечення шляхом оптимізації методів вилучення ознак та застосування машинного навчання. Основні задачі дослідження включають: вилучення ознак з exe. файлів, створення кількох моделей машинного навчання та їх порівняння для визначення найефективнішої моделі. Використаний у цьому дослідженні набір даних був зібраний з різних інтернет-джерел та складається з 12824 виконуваних файлів у форматі .exe, з яких 11844 файлів є шкідливими, а 980 – доброякісними. У статті представлено рекомендовані методи вилучення ознак та генерації вхідних даних для моделей машинного навчання на основі алгоритму машини опорних векторів. Ці методи дозволяють знайти найкращий шлях для обробки ознак, що описують шкідливий файл. Було створено шість моделей машинного навчання, кожна з яких показала високі показники метрик F-score, precision та recall. Модель, яка була створена на основі бінарного типу представлення даних, показала найвищі результати по всіх метриках.

Біографії авторів

Алан Нафієв, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Аспірант

Дмитро Ланде, Інститут проблем реєстрації інформації Національної академії наук України

Доктор технічних наук, професор

Посилання

Abdessadki, I., & Lazaar, S. (2019). A new classification based model for malicious pe files detection. International Journal of Computer Network and Information Security, 11(6), 1-9.

Abri, F., Siami-Namini, S., Khanghah, M.A., Soltani, F.M. et al. (2019). The performance of machine and deep learning classifiers in detecting zero-day vulnerabilities. arXiv:1911.09586.

Alazab, M., Venkatraman, S., Watters, P., & Alazab M. (2011). Zero-day malware detection based on supervised learning algorithms of api call signatures. In Australasian Data Mining Conference (pp. 171-182).

Al-Khshali, H.H., Ilyas, M., & Ucan, O.N. (2020). Effect of pe file header features on accuracy. In IEEE Symposium Series on Computational Intelligence.

Bilar, D. (2007). Opcodes as predictor for malware. International Journal of Electronic Security and Digital Forensics.

Burges, C.J.C. (1998). A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2, 121-167.

Chaudhary, P. (2021). Pe file-based malware detection using machine learning. In Proceedings of International Conference on Artificial Intelligence and Applications (pp. 113-123).

Handa, A., Sharma, A., & Shukla, S.K. (2019). Machine learning in cybersecurity: A review. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery.

Kutlay, A., & Karađuzović-Hadžiabdić, K. (2020). Static based classification of malicious software using machine learning methods. Lecture Notes in Networks and Systems book series, 83.

Lifshits, Yu. (2006). Algorithms for internet: Support vector machines.

Microsoft. "Portable Executable". (n.d.). Retrieved from https://learn.microsoft.com/en-us/windows/win32/debug/pe-format.

Nafiiev, A., Kholodulkin, H., & Rodionov, A. (2022). Comparative analysis of machine learning methods for detecting malicious files. Theoretical and Applied Cybersecurity, 3(1).

Raff, E., Zak, R. et al. (2018). An investigation of byte n-gram features for malware classification. Journal of Computer Virology and Hacking Techniques.

Sikorski, M., & Honig, A. (2012). Practical Malware Analysis: The Hands on Guide to Dissecting Malicious Software.

The fields used for the DOS Header. (2016). Retrieved from https://github.com/wine-mirror/wine/blob/master/include/winnt.h.

##submission.downloads##

Опубліковано

2023-09-22

Як цитувати

Нафієв, А., & Ланде, Д. (2023). МОДЕЛЬ ВИЯВЛЕННЯ ШКІДЛИВОГО ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ НА ОСНОВІ МАШИННОГО НАВЧАННЯ. Вісник Черкаського державного технологічного університету, (3), 40–50. https://doi.org/10.24025/2306-4412.3.2023.286374

URN