METHODS AND MEANS OF INTELLIGENT ANALYSIS OF TEXT DOCUMENTS

Дмитро Олегович   Якименко; Євгенія Юріївна  Катаєва

doi:10.24025/2306-4412.2.2022.259408

Автор(и)

Дмитро Олегович Якименко Черкаський державний технологічний університет, Ukraine https://orcid.org/0000-0002-6906-8164
Євгенія Юріївна Катаєва Черкаський державний технологічний університет, Ukraine https://orcid.org/0000-0002-9668-4739

DOI:

https://doi.org/10.24025/2306-4412.2.2022.259408

Ключові слова:

ключові слова, аналіз тексту, пошук, текстові документи, класифікація

Анотація

В роботі проведено огляд методів аналізу та обробки електронних документів. Проаналізовано методи аналізу текстових документів для вирішення задачі визначення тематичної спорідненості текстів. Виконано огляд існуючих підходів до вирішення задачі класифікації. Описано основні підходи, що використовуються в задачі класифікації текстів; визначено етапи процесу класифікації та розглянуто найпоширеніші методи класифікації текстових документів. Розглянуто основні підходи до попередньої обробки тексту: Нижній регістр, Коренева корекція, Стемінг, Лематизація, Видалення стоп-слова, Нормалізація. Розглянуто переваги та недоліки кожного підходу. Розглянуто процедуру зменшення розмірності набору ознак із поділом на підпроцеси: обирання ознак та виділяння ознак. Розглянуто, в яких випадках кожен із підпроцесів є недоцільним для використання, та описано, які пошукові та фільтрові підходи і метрики є альтернативними або спорідненими для них. Зроблено висновок щодо необхідності подальшого розроблення алгоритмів класифікації на базі зазначених методів, що були б простими в реалізації, ефективними, мали низькі обчис-лювальні витрати під час навчання та високу якість класифікації в реальних завданнях. Визначено підхід до оцінки тематичної близькості документів з використанням редукції простору ознак і розглянуто алгоритм формування інформаційно-пошукових атрибутів доку-ментів для виконання автоматичної кластеризації документів. Розглянуто доцільність застосування для цього методів інтелектуального аналізу тексту. Проаналізовано відкрите програмне забезпечення з використанням розглянутих методів.

Біографії авторів

Дмитро Олегович Якименко, Черкаський державний технологічний університет

Аспірант (здобувач)

Євгенія Юріївна Катаєва , Черкаський державний технологічний університет

к.т.н., доцент

Посилання

D. E. Goldberg, Genetic Algorithms in Search, Optimization and Machine Learning. Adison Wesley, Reading, MA, 1998.

N. Kasyanchuk, and L. Tkachuk, "Protection of information in databases", in Conf. VNTU of Electron. Sci. Publications, XLVIII Sci. and Tech. Conf. of the Faculty of Manage-ment and Information Security, 2019, pp. 2419-2424 [in Ukrainian].

I. H. Witten, E. Frank, and M. A. Hall, Data Mining: Practical Machine Learning Tools and Techniques. 3rd ed. Morgan Kaufmann, 2011.

J. F. Luger, Artificial Intelligence. Strategies and methods for solving complex problems. 4th ed. Moscow: Izdat. Dom Williams, 2003.

T. Joachims, Learning to Classify Text Using Support Vector Machines: Methods, Theory and Algoritmhs. MA, USA: Kluwer Academic Publisher Norwel, 2002.

O. V. Havrylenko, Yu. O. Oliynyk, and G. V. Khanko, "Overview and analysis of text mining algorithms", Project Manage-ment, System Analysis and Logistics, no. 19, pp. 15-23, Kyiv, 2017 [in Ukrainian].

M. Lemke, and G. Wiedemann, Text Mining in den Sozialwissenschaften. Springer Fachmedien Wiesbaden, 2016, pp. 397-419.

I. V. Gushchin, and D. O. Sych, "Analysis of the influence of pre-processing of the text on the results of text classification", Young Scientist, no. 10, pp. 264-267, Kherson, 2018 [in Ukrainian].

G. Salton et al., "Automatic text structuring and summarization", Information Processing & Management, vol. 33, no. 2, pp. 193-207, 1997.

Z. Yao, Y. Sun, W. Ding, N. Rao, and H. Xiong, "Dynamic word embeddings for evolving semantic discovery", WSDM 2018 Proc. 11th ACM Int. Conf. on Web Search and Data Mining. Marina Del Rey, CA, USA, Febr. 5-9, 2018, pp. 673-681.

Word2Vec Implementation. [Online]. Avail-able: https://towardsdatascience.com/a-word2vec-implementation-using-numpy-and-python-d256cf0e5f28. [12] T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space", arXiv:1301.3781, 2013.

I. G. Oksanich, "Intellectual analysis of an array of text documents based on text mining technology", Information Processing Systems, pp. 139-143, Lutsk, 2013 [in Ukrainian].

A. Yu. Zubrytskyi, "Intellectual system of text research and analysis", M.S. thesis, Na-tional Technical University of Ukraine "Ihor Sikors'kyy Kyiv Polytechnic Institute, Kyiv, Ukraine, 2019 [in Ukrainian].

G. S. Linoff, and M. J. A. Berry, Data Mining Techniques: For Marketing, Sales, and Cus-tomer Relationship Management, 3rd ed. NY, USA: Wiley Publishing inc., 2011.

S. Deerwester et al., Indexing by Latent Se-mantic Analysis. Chicago, IL, USA: Gradu-ate Library School University of Chicago, 1990.

E. V. Bodyansky, and O. G. Rudenko, Arti-ficial Neural Networks: Architecture, Training, Application. Kharkiv: TELE-TECH, 2004 [in Ukrainian].

D. W. Lande, Search for Knowledge on the Internet. Professional Work. NY, USA: Williams, 2005.

M. T. Hagan, H. B. Demuth, M. H. Beale, and O. De Jesús, Neural Network Design. 2014.

K. S. Jones, "A statistical interpretation of term specificity and its application in re-trieval", Journal of Documentation, vol. 60, no. 5, pp. 493-502, MCB University Press, 2004.

A. Shalloway, and J. R. Trott, Design Tem-plates. A New Approach to Object-Oriented Analysis and Design. NY, USA: Williams, 2002.

"Library of software components of text analysis technology". [Online]. Available: https://www.analyst.ru/index.php?lang=rus&dir=content/downloads/.

"Advego - content exchange №1". [Online]. Available: https://advego.com/.

DeepDive [Online]. Available: http://deepdive.stanford.edu/.

F. Pedregosa et al., "Scikit-learn: Machine learning in Python", Journal of Machine Learning Research, vol. 12, pp. 2825-2830, 2011.

МЕТОДИ ТА ЗАСОБИ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ ДОКУМЕНТІВ

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Дмитро Олегович Якименко, Черкаський державний технологічний університет

Євгенія Юріївна Катаєва , Черкаський державний технологічний університет

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

URN

Ліцензія

Автори, які публікуються в цьому збірнику, погоджуються з наступними умовами:

Інформація