Ученые Новосибирского государственного университета совместно с коллегами из Казахстана разработали алгоритм определения деструктивной информации в интернете на русском и казахском языках.
«Нами проведен анализ новостей в казахстанском сегменте интернета как на казахстанском, так и на русском языках, собран большой дата-сет с новостями. В частности, проводились исследования на предмет деструктивной информации. По некоторым признакам мы научились ее определять», – рассказал агентству ТАСС заведующий кафедрой математического моделирования механико-математического факультета НГУ Владимир Барахнин.
Ученый пояснил, что для исследования собрали более четырех миллионов публикаций в 36 казахстанских СМИ и более двух миллионов текстов российских СМИ. Деструктивная информация выявлялась на основании следующих критериев: отсутствие проверяемых фактов, политизация, призыв к действию, негативная тональность, манипулятивность.
В мировой практике такие алгоритмы уже не новинка, но составить его для английского языка достаточно просто, там нет изменения слов по падежам. В русском языке у существительных шесть падежей, единственное и множественное число. В казахском языке тоже есть изменяющиеся окончания, категории падежа, числа, так что ученым пришлось проделать немалую работу, чтобы обучить искусственный интеллект опознавать нужные конструкции.
Ученые НГУ вместе с сотрудниками Казахского национального технического университета имени Сатпаева планируют расширить число языковых моделей.
«Разрабатываемые алгоритмы позволят переносить знания, полученные из английских источников в модели на русском или на казахском или наоборот», – дополнил Барахнин.
Иллюстрация freepik.com
