МОДЕЛЬ ВИЯВЛЕННЯ ШКІДЛИВОГО ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ НА ОСНОВІ МАШИННОГО НАВЧАННЯ
DOI:
https://doi.org/10.24025/2306-4412.3.2023.286374Ключові слова:
виявлення вторгнень, PE формат, вилучення ознак, дизасембльовані інструкції, машина опорних векторівАнотація
З кожним роком автори шкідливого програмного забезпечення створюють все більш досконалі та хитромудрі шкідливі програми, які можуть завдати шкоди нашим комп’ютерам. Традиційні методи, які ґрунтуються на пошуку сигнатур програм, перестають бути ефективними для вирішення проблеми детекції шкідливого програмного забезпечення. На зміну приходить автоматизація аналізу файлів, яка є більш перспективним підходом для виявлення підозрілих файлів. Для виявлення таких програм все частіше використовують методи машинного навчання. Однак для виконання своїх операцій такі рішення можуть потребувати багато обчислювальних ресурсів. Тому виникає задача створення оптимальної моделі машинного навчання з погляду швидкості навчання і точності детекції шкідливого програмного забезпечення. Крім того, зазвичай одного методу представлення даних недостатньо для якісного виявлення шкідливих ознак файлів. Тому в цій роботі буде описано два різні методи: один підхід ґрунтується на бінарній інформації файлу, другий полягає у використанні трасувальних інструкцій. Мета цієї роботи – підвищення ефективності виявлення шкідливого програмного забезпечення шляхом оптимізації методів вилучення ознак та застосування машинного навчання. Основні задачі дослідження включають: вилучення ознак з exe. файлів, створення кількох моделей машинного навчання та їх порівняння для визначення найефективнішої моделі. Використаний у цьому дослідженні набір даних був зібраний з різних інтернет-джерел та складається з 12824 виконуваних файлів у форматі .exe, з яких 11844 файлів є шкідливими, а 980 – доброякісними. У статті представлено рекомендовані методи вилучення ознак та генерації вхідних даних для моделей машинного навчання на основі алгоритму машини опорних векторів. Ці методи дозволяють знайти найкращий шлях для обробки ознак, що описують шкідливий файл. Було створено шість моделей машинного навчання, кожна з яких показала високі показники метрик F-score, precision та recall. Модель, яка була створена на основі бінарного типу представлення даних, показала найвищі результати по всіх метриках.
Посилання
Abdessadki, I., & Lazaar, S. (2019). A new classification based model for malicious pe files detection. International Journal of Computer Network and Information Security, 11(6), 1-9.
Abri, F., Siami-Namini, S., Khanghah, M.A., Soltani, F.M. et al. (2019). The performance of machine and deep learning classifiers in detecting zero-day vulnerabilities. arXiv:1911.09586.
Alazab, M., Venkatraman, S., Watters, P., & Alazab M. (2011). Zero-day malware detection based on supervised learning algorithms of api call signatures. In Australasian Data Mining Conference (pp. 171-182).
Al-Khshali, H.H., Ilyas, M., & Ucan, O.N. (2020). Effect of pe file header features on accuracy. In IEEE Symposium Series on Computational Intelligence.
Bilar, D. (2007). Opcodes as predictor for malware. International Journal of Electronic Security and Digital Forensics.
Burges, C.J.C. (1998). A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2, 121-167.
Chaudhary, P. (2021). Pe file-based malware detection using machine learning. In Proceedings of International Conference on Artificial Intelligence and Applications (pp. 113-123).
Handa, A., Sharma, A., & Shukla, S.K. (2019). Machine learning in cybersecurity: A review. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery.
Kutlay, A., & Karađuzović-Hadžiabdić, K. (2020). Static based classification of malicious software using machine learning methods. Lecture Notes in Networks and Systems book series, 83.
Lifshits, Yu. (2006). Algorithms for internet: Support vector machines.
Microsoft. "Portable Executable". (n.d.). Retrieved from https://learn.microsoft.com/en-us/windows/win32/debug/pe-format.
Nafiiev, A., Kholodulkin, H., & Rodionov, A. (2022). Comparative analysis of machine learning methods for detecting malicious files. Theoretical and Applied Cybersecurity, 3(1).
Raff, E., Zak, R. et al. (2018). An investigation of byte n-gram features for malware classification. Journal of Computer Virology and Hacking Techniques.
Sikorski, M., & Honig, A. (2012). Practical Malware Analysis: The Hands on Guide to Dissecting Malicious Software.
The fields used for the DOS Header. (2016). Retrieved from https://github.com/wine-mirror/wine/blob/master/include/winnt.h.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
URN
Ліцензія
Авторське право (c) 2023 Алан Нафієв, Дмитро Ланде
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.
Автори, які публікуються в цьому збірнику, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають збірнику право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License CC BY-NC, яка дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи в цьому збірнику.
Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи в тому вигляді, в якому її опубліковано цим збірником (наприклад, розміщувати роботу в електронному сховищі установи або публікувати в складі монографії), за умови збереження посилання на першу публікацію роботи в цьому збірнику.
Політика збірника наукових праць дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).