В обработке естественно-языковой информации актуальна проблема выявления текстов определенной семантической направленности и определения их источников. Это требуется в анализе новостных потоков, чатов мессенджеров, социальных сетей, проверке документов на плагиат и других подобных задачах. Целью работы является обоснование концептуальной модели выявления в естественно-языковых потоках текстов определенной семантической направленности по формальным описаниям их источников. Анализ известных подходов показал потребность в собственном инструментарии для решения проблемы. В работе предлагается семантическую направленность задавать сценариями языка формальной грамматики гипотетического семантического объекта, сценарии представлять последовательностями характеристик семантического словаря и направленность текста определять семантической близостью сценарию. Бесконечность языка сценариев и отсутствие информации об исходном тексте исключают простой перебор, поэтому предполагаемый сценарий конструируется. Процесс организуется последовательным определением семантического сходства токенов текста характеристикам и их сборкой в предполагаемый сценарий, проверяемый на принадлежность языку. Для семантического сравнения текстов и сценариев сконструированы функции семантического подобия, общий и частный алгоритмы выявления текстов определенной семантической направленности. В общем алгоритме разбор сводится к построению вывода в формальной грамматике, для регулярных грамматик разбор выполняется системой переходов. Для ускорения сборка предполагаемого сценария совмещается с грамматическим разбором и используется механизм бек-трекинга. Точность алгоритмов определяется фактической близостью текстов сценариям. В работе приводится состав разработанного программного комплекса, тестирование которого подтверждает теоретические результаты. Исследование развивает фундаментальные основы математического моделирования естественно-языковой обработки и предлагает новые эффективные вычислительные алгоритмы для комплексов проблемно-ориентированных программ.
Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.
Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.
Все права на товарные знаки принадлежат их законным владельцам!
Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.
Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.
Спасибо, понятно.