Применение алгоритмов текстовой аналитики и практик OSINT в информационно-аналитических системах

Александр Юрьевич Выжигин

Кандидат технических наук, доцент, заведующий кафедрой

Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации

Москва, Россия

Кандидат технических наук, доцент

Российский технологический университет

Москва, Россия

vijigin_new2000@mail.ru

Илья Сергеевич Москалев

Студент

Российский технологический университет

Москва, Россия

moskalevilya1@gmail.com

Олег Владимирович Трубиенко

Кандидат технических наук, доцент, заведующий кафедрой

Российский технологический университет

Москва, Россия

trubienko@mail.ru

Поступила в редакцию 27.03.2023

Принята 01.04.2023

Аннотация

Информация – важный ресурс нашей жизни, который принято делить на два вида в зависимости от значимости: 1) точные данные – данные, которые неискаженно отражают события, факты и помогают провести грамотный анализ произошедшего; 2) избыточные (мусорные) данные – данные, которые могут ввести аналитика в заблуждение, таким образом, создав риск возникновения ошибки в ходе анализа. Проблема современного информационного общества заключается в том, что люди не всегда могут извлечь точные данные для последующего анализа информации. С данной проблемой способны справиться информационно-аналитические системы (особый класс информационных систем, обладающих свойством аналитической обработки данных при автоматизации процесса получения ответа на тот или иной запрос). Работу информационно-аналитических систем (ИАС) можно сравнить с информационными системами (ИС). Рассмотрим одну из известных всем поисковых систем – «Яндекс». Поисковые системы также являются информационно-аналитическими. К примеру, мы хотим получить информацию о чемпионате мира по футболу 2014 года. В Яндексе мы формируем запрос – «чемпионат мира по футболу 2014 года», что на языке SQL выглядело бы так (SELECT football FROM world_championship WHERE year = 2014). В ответе от Яндекса содержится 5000 результатов, и чтобы выяснить необходимую информацию, необходимо или проанализировать эти ответы, или переформулировать поисковые запросы. Поисковые системы похожи на ИАС, но для оптимального решения стоит использовать те, которые содержат в себе удобный интерфейс для пользователя, где по кнопкам из меню можно попасть к нужному функционалу и получить желаемый результат без дополнительного анализа. Научная новизна исследования заключается в следующем: 1) расширены возможности текстовой аналитики за счет использования практик OSINT при выполнении запросов в ИАС; 2) разработан метод извлечения информации из российского сегмента сети Интернет; 3) разработан метод проверки запросов к ИАС на их логичность с точки зрения лексикологии; 4) разработан защищенный доступ к функционалу ИАС. Цель работы – повышение эффективности методов текстовой аналитики за счет применения практик OSINT. В статье использовались такие методы как: OSINT (поиск информации из открытых источников, метод деловой разведки, суть которого заключается в получении конкретного ответа на конкретный вопрос); текстовая аналитика (процесс обработки неструктурированного текста для выявления идей, закономерностей и т. д.). В результате был разработан функционал информационно-аналитической системы, использующий алгоритмы текстовой аналитики и практики OSINT. Полученные результаты могут использоваться работниками различных служб безопасности нашей страны, а также обычными пользователями данной ИАС для оперативного получения нужной информации.

Ключевые слова

информационно-аналитическая система, текстовая аналитика, NLP, Open source intelligence, OSINT, язык запросов Google dorks, язык программирования Python, морфологический анализатор, data science, поисковые системы.

Application of text analytics algorithms and OSINT practices in information and analytical systems

Alexander Yu. Vyzhigin

Candidate of Technical Sciences, Associate Professor, Head of Department

Russian Academy of National Economy and Public Administration under the President of the Russian Federation

Moscow, Russia

Candidate of Technical Sciences, Associate Professor

Russian Technological University

Moscow, Russia

vijigin_new2000@mail.ru

Ilya S. Moskalev

Student

Russian Technological University

Moscow, Russia

moskalevilya1@gmail.com

Oleg V. Trubienko

Candidate of Technical Sciences, Associate Professor, Head of Department

Russian Technological University

Moscow, Russia

trubienko@mail.ru

Received 13.10.2023

Accepted 10.11.2023

Annotation

Information is an important resource of our life, which is usually divided into two types depending on its significance: 1) accurate data – data that does not distort events, facts and helps to conduct a competent analysis of what happened; 2) redundant (garbage) data – data that can mislead the analyst, thus creating the risk of errors during the analysis. The problem of the modern information society is that people cannot always extract accurate data for subsequent analysis of information. Information and analytical systems are able to cope with this problem (a special class of information systems that have the property of analytical data processing when automating the process of receiving a response to a particular request). The work of information and analytical systems (IAS) can be compared with information systems (IS). Consider one of the well-known search engines – Yandex. Search engines are also information and analytical. For example, we want to get information about the 2014 FIFA World Cup. In Yandex, we generate a query – «2014 FIFA World Cup», which in SQL would look like this (SELECT football FROM world_championship WHERE year = 2014). The response from Yandex contains 5,000 results, and in order to find out the necessary information, it is necessary either to analyze these answers or to reformulate search queries. Search engines are similar to IAS, but for an optimal solution it is worth using those that contain a user-friendly interface where you can click on the buttons from the menu to get to the desired functionality and get the desired result without additional analysis. The scientific novelty of the research is as follows: 1) the possibilities of text analytics have been expanded by using OSINT practices when making requests to the IAS; 2) a method for extracting information from the Russian segment of the Internet has been developed; 3) a method for checking requests to the IAS for their consistency from the point of view of lexicology has been developed; 4) Secure access to the IAS functionality has been developed. The purpose of the work is to increase the effectiveness of text analytics methods through the use of OSINT practices. The article used such methods as: OSINT (search for information from open sources, a business intelligence method, the essence of which is to get a specific answer to a specific question); text analytics (the process of processing unstructured text to identify ideas, patterns, etc.). As a result, the functionality of an information and analytical system using text analytics algorithms and OSINT practices was developed. The results obtained can be used by employees of various security services of our country, as well as by ordinary users of this IAS to quickly obtain the necessary information.

Keywords

information analytical system, text analytics, NLP, Open source intelligence, OSINT, Googledorks query language, Python programming language, morphological analyzer, data science, search engines.

Читать статью