В данной статье рассматриваются теоретические основы и принципы работы основных методов кластерного анализа данных, используемых в задачах интеллектуальной аналитики. Подробно анализируются работы ряда исследователей в области кластеризации, описан прогресс в разработке и применении классических и новейших подходов к группировке структурно сложных, разнородных данных с использованием аппарата статистики, нейронных сетей, математического моделирования. Рассмотрены математические основания иерархических, вероятностных, плотностных, графовых и других методов кластеризации, теоретически доказана эффективность их применения на разных типах данных в зависимости от поставленных аналитических целей. Отдельное внимание уделено проблематике кластеризации больших объемов разнородной информации в условиях возрастания скорости поступающих данных и требований к оперативности их обработки. Продемонстрирован потенциал гибридных нейросетевых и распределенных методов кластеризации для эффективного масштабируемого анализа Big Data в высокопроизводительных вычислительных системах. Показано, что несмотря на значительный прогресс, ряд фундаментальных вопросов в данной области остается открытым и требует дальнейших междисциплинарных исследований на стыке статистики, математики и компьютерных наук..
Идентификаторы и классификаторы
В эпоху беспрецедентного роста объёмов генерируемой цифровой информации остро встаёт вопрос её структуризации и извлечения полезных знаний.
Кластеризация, или группировка массивов неупорядоченных многомерных данных на однородные подмножества, относится к числу важнейших инструментов интеллектуальной аналитики. При этом решение сложных прикладных задач требует комплексного применения богатого арсенала разработанных математических методов. В результате многолетних усилий исследователей в области кластеризации сложился широкий спектр подходов, включающих иерархические, вероятностные, плотностные, графовые алгоритмы и другие. Как показано в проанализированных работах, каждый из этих методов обладает своей областью эффективного применения, определяемой природой данных, наличием априорной информации, требованиями к ресурсоёмкости обработки.
Список литературы
1. Исаков, С.С. Кластеризация и многоступенчатый анализ научных текстов / С.С. Исаков // Моделирование и анализ данных. - 2022. - Т. 12, No 4. - С. 105-109. URL: https://psyjournals.ru/journals/mda/archive/2022_n4/mda_2022_n4_Isakov.pdf. EDN: ZCAUPY
2. Махрусе Насма. Современные тенденции методов интеллектуального анализа данных: метод кластеризации // Московский экономический журнал. - 2019. - No 4. - С. 243-249. URL: https://cyberleninka.ru/article/n/sovremennye-tendentsii-metodov-intellektualnogo-analiza-dannyh-metod-klasterizatsii.
3. Пуговкина, Е.Д. Использование методов кластеризации текстов на естественном языке в рекомендательных системах / Е.Д. Пуговкина, А.А. Белоусов // Информационные технологии и нанотехнологии. - 2022. - Т. 4. - С. 1022-1031. URL: http://repo.ssau.ru/bitstream/Informacionnye-tehnologii-i-nanotehnologii/Ispolzovanie-metodov-klasterizacii-tekstov-na-estestvennom-yazyke-v-rekomendatelnyh-sistemah-100180/1/ИТНТ-2022.%20Том%204.%20Искусственный%20интеллект/978-5-7883-1792-2_2022-041022.pdf. EDN: ZRAFPK
4. Рожнов, И.П. Повышение эффективности отбора однородных партий с использованием гибридных алгоритмов кластерного анализа / И.П. Рожнов, С.Н. Ежеманская, Л.А. Казаковцев, Е.Б. Козловская // Международный научно-исследовательский журнал. - 2022. - No 10(124). - С. 95-100. URL: https://research-journal.org/archive/10-124-2022-october/. DOI: 10.23670/IRJ.2022.124.35 EDN: DZJLDC
5. Харахинов, В.А. Нейросетевые технологии решения задач кластеризации и классификации данных в технических системах: дис.... канд. техн. наук. - Иркутск, 2023. - 212 с. URL: https://www.irgups.ru/sites/default/files/oo/science/dissert%20sovet/dissertazii%20predsavlennyu%20k%20zashite/Харахинов%20Владимир%20Александрович/Полный%20текст%20диссертации%20Харахинов%20В.А..pdf. EDN: JIXBKM
6. Хечми Шили. Кластеризация в аналитике больших данных: системный обзор и сравнительный анализ (обзорная статья) // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, No 5. С. 967-979. URL: https://ntv.ifmo.ru/ru/article/22369/%09klasterizaciya_v_analitike_bolshih_dannyh:_sistemnyy_obzor_i_sravnitelnyy_analiz_(obzornaya_statya).htm. EDN: GHRHGY
7. Ширинкина, Е.В. Методы интеллектуального анализа данных и образовательной аналитики / Е.В. Ширинкина // Современное образование. - 2022. - No 1. - С. 51-67. URL: https://nbpublish.com/library_read_article.php?id=37582. EDN: DINNOW
8. Casanova, C. Hierarchical clustering-based framework for a posteriori exploration of Pareto fronts: application on the bi-objective next release problem / C. Casanova, E. Schab, L. Prado [et al.]. - 2023. URL: https://www.frontiersin.org/articles//full. DOI: 10.3389/fcomp.2023.1179059
9. Gao, C.X. An overview of clustering methods with guidelines for application in mental health research / C.X. Gao, D. Dwyer, Y. Zhu [et al.] // Psychiatry Research. - 2023. - Vol. 327. - P. 115265. URL: https://www.sciencedirect.com/science/article/pii/S0165178123002159. EDN: MYRSQS
10. Omran, M. An overview of clustering methods / M. Omran, A.P. Engelbrecht, A.A. Salman // Intelligent Data Analysis. - 2007. - Vol. 11, No 6. - P. 583-605. URL: https://www.researchgate.net/publication/220571682_An_overview_of_clustering_methods.
11. Oyewole, G.J. Data clustering: application and trends / G.J. Oyewole, G.A. Thopil // Artificial Intelligence Review. - 2023. - Vol. 56, No 9. - P. 6439-6475. URL: https://link.springer.com/article/-y. DOI: 10.1007/s10462-022-10325 EDN: OQRSWY
12. Pitafi, S. A Taxonomy of Machine Learning Clustering Algorithms, Challenges, and Future Realms / S. Pitafi, T. Anwar, Z. Sharif // Applied Sciences. - 2023. - Vol. 13, No 6. - P. 3529. URL: https://www.mdpi.com/2076-3417/13/6/3529.
13. Wei, X. An overview on density peaks clustering / X. Wei, M. Peng, H. Huang [et al.] // Neurocomputing. - 2023. - Vol. 554. - P. 126633. URL: https://www.sciencedirect.com/science/article/abs/pii/S0925231223007567. EDN: AQCDYA
14. Yang, Y. A generalized fuzzy clustering framework for incomplete data by integrating feature weighted and kernel learning / Y. Yang, H. Chen, H. Wu // PeerJ Computer Science. - 2023. - Vol. 9. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10588703. EDN: BQCUSP
15. Zhang, M. Review of Clustering Methods for Functional Data / M. Zhang, A. Parnell // ACM Transactions on Knowledge Discovery from Data. - 2023. - Vol. 17, No 7. - P. 91. URL: https://dl.acm.org/doi/. DOI: 10.1145/3581789 EDN: FVILFF
Выпуск
Другие статьи выпуска
В статье рассматривается проблем оценки текстовой информации в информационных системах с акцентом на доверие. Авторы подчеркивают важность формирования доверия по различным критериям, таким как авторитетность и экспертность авторов, надежность источников, ясность изложения и соответствие информации потребностям. В статье представлена формализация эмерджентности доверия в виде кода на phyton.
В статье рассматриваются существующие подходы к прогнозированию аварий в системах водоснабжения. Данная задача является одной из важнейших, так как она позволяет заранее провести работы по предупреждению аварий, а также, в случае возникновения подобных аварий, быть максимально готовыми к подобным ситуациям. Иными словами - прогноз позволит избежать возникновение авариных ситуаций на сетях водоснабжения, что актуализирует выбранную тему исследования. Целью статьи является описание методов прогнозирования аварий в системах водоснабжения. Объект исследования - системы водоснабжения. Предмет исследования - методы прогнозирования аварий в системах водоснабжения. Методы исследования - анализ научный публикаций и статей, проводимый с целью обобщения существующих методик прогнозирования аварий в системах водоснабжения. Научная новизна исследования заключается в проведении обзора современных методов прогнозирования аварийных ситуаций. Практическая значимость состоит в оценке возможности реализации подобного прогноза с использованием инструментария информационных технологий.
Управление IT-проектами, наряду с управлением проектами в отраслях промышленности с более долгой историей, таких как металлургия, машиностроение, тяжёлая промышленность, является регламентированным процессом, в котором все этапы регулируются различными документами - методологиями, соглашениями, стандартами. Эти регламенты помогают использовать всем участникам процесса практики, зарекомендовавшие свою эффективность - начиная с этапов планирования проекта, завершая тестированием и выводом проекта в эксплуатацию. По мере становления различных процессов, появляются новые методологии, вбирающие в себя весь накопленный опыт и дающие возможность этим опытом воспользоваться. Жизненный цикл IT-проекта состоит из множества этапов, каждый из которых описан либо отдельно в соответствующем стандарте, либо в составе комплексного описания группы этапов. Этап разработки программного обеспечения представляет собой временной промежуток, за время выполнения которого создаётся основная ценность создаваемого решения, поэтому процессы работы с исходным кодом являются одними из наиболее важных среди всех процессов жизненного цикла. На текущий момент произошло становление очередного ряда процессов этапа разработки, описание и формализация которых дает возможность большому числу разработчиков пользоваться лучшими практиками и не изобретать велосипед в работе с кодовой базой. В научной статье рассматривается история становления методологий в сфере информационных технологий и пути формализации используемых практик. Затем, даётся краткая характеристика состояния сферы в контексте работы с исходным кодом программного продукта. Следующим шагом описываются зарекомендовавшие себя практики работы с кодовой базой, на их основе выполнена систематизация накопленных знаний и приведение к виду методологии, готовой к практическому применению. Пример использования описанной в работе методологии служит для подтверждения её жизнеспособности и обозначения границ её практического применения.
Сегодня работа мерчандайзера заключается в том, чтобы убедиться, что витрины с товарами соответствуют планограмме выкладки и имеют корректные ценники. К сожалению, процесс мерчендайзинга часто по-прежнему включает в себя множество неэффективных, трудоемких и выполняемых вручную задач: мерчандайзеры используют рулетки, вручную подсчитывают товары и заполняют длинные бумажные формы оценки витрины. Сочетание традиционных методов мерчандайзинга с современными цифровыми технологиями, в том числе, с использованием искусственного интеллекта, позволит существенно повысить эффективность взаимодействия производителя с покупателем в точках розничной продажи. В статье описаны особенности применения масштабно-инвариантной трансформации признаков для решения задачи автоматизированного мониторинга выкладки с помощью выделения областей интереса на изображениях выкладки путем сопоставления найденных особых точек..
Статья продолжает цикл работ, посвященный социальным представлениям об искусственном интеллекте. Психологический аспект исследования дополнен экономическими и культурно-философскими оценками. Внимание авторов сосредоточено на амбивалентности выявленных в ходе экспериментального исследования категорий. Феномен социального представления дает возможность и увидеть наличие противоречивых тенденций в оценках значимых общественных явлений, и определить конкретно этап трансформации этих тенденций. Представлен более подробно анализ проблемы с описанием методологии, а также общая оценка адекватности амбивалентности представлений массового сознания об ИИ оценкам профессионалов в сфере ИИ и финансовых деятелей. Утверждается, что одна из серьезнейших опасностей, связанных с цифровым интеллектом, - это тенденция к унификации, способная затормозить эволюцию и прогресс. На основе прямых экспериментальных данных относительно негативного воздействия ИИ на вариативность для финансовых рынков построены прогнозы того, как, действуя по такому же принципу, ИИ может повлиять на другие рынки и отрасли.
Целью данной работы является разработка цифровых стандартов, на основе которых возможен лишь оптимальный переход от этапа информатизации управления экономикой к этапу цифровой ее трансформации. Показано, что цифровые стандарты отражают один из основных принципов данного перехода, относящегося ко всему общественному развитию - формированию рациональной структуры управления данными с повсеместной интеграцией разрозненных их элементов в единую систему. В качестве цифрового инструмента, разрешающего проблему их формирования, предлагается математическая модель формирования цифровых платформ управления экономикой страны. С помощью данной модели на примере сельского хозяйства были получены цифровые стандарты в виде онтологических и логических моделей технологических баз данных, баз данных первичного учета, единых для всей отрасли. Это позволит эффективным образом реализовать государственное управление национальной экономикой на основе создания единой государственной компьютерной сети, идеи которой предлагались ещё руководителям СССР выдающимися учеными А. И. Китовым и В. М. Глушковым.
Статья посвящена исследованию причин крушения систем золотого стандарта, в частности, Бреттон-Вудской, и основных возражений против его внедрения в настоящее время в международных расчетах. Авторы анализируют разные подходы к конструированию систем международных платежей, акцентируя внимание на их слабых и сильных сторонах. В частности, исследованы проблемы цифровых валют центральных банков (ЦВЦБ) и криптовалют. Авторами предложен вариант двухуровневой финансовой системы и платежной системы, использующей золото в качестве средства платежа, который можно в определенном смысле считать применением золотого стандарта в международных расчетах.
В Российской империи страхование существовало на рыночной основе. Затем Декретом СНК РСФСР от 28 ноября 1918 г. об организации страхового дела в Российской Федерации оно было объявлено государственной монополией, а все имущество и капиталы, принадлежавшие частным компаниям, передавались государству. В настоящее время в России страховая система снова развивается на рыночной основе. Это приводит к необходимости теоретического осмысления проблем регулирования и долговременного страхового планирования.
На конкретных примерах показано, что новые информационные технологии и сервисы на их основе позволяют существенно повысить качество экспертных заключений и принимаемых на их основе судебных решений. В том числе это касается судебных решений, связанных с нарушением интеллектуальных прав, включая выбор порядка рассмотрения каждого конкретного дела и обоснованность расчетов размера компенсации. Исследование основано на анализе арбитражной практики. Разработана соответствующая методология, в основе которой лежит мультидисциплинарный подход, то есть совместная работа специалистов из трех и более разных областей.
Показаны упущенные возможности придания экономической науке уровня доказательности, принятого в естественных науках, и причины этого, имеющиеся в ней самой. К ним относятся идеологическая ангажированность, скудность используемого инструментария и проблемы с логикой. Показано, как эти три проблемы могут быть смягчены, если не устранены совсем. Но самая главная и практически неустранимая причина – избыток лиц, профессионально занимающихся экономикой как наукой. На конкретных примерах показано наличие всех перечисленных проблем и возможность их смягчения с применением математики и методов естественных наук.
Издательство
- Издательство
- ЦЭМИ РАН
- Регион
- Россия, Москва
- Почтовый адрес
- 117418, Москва, Нахимовский пр, 47
- Юр. адрес
- 117418, Москва, Нахимовский пр, 47
- ФИО
- Альберт Рауфович БАХТИЗИН (Директор)
- E-mail адрес
- albert.bakhtizin@gmail.com
- Контактный телефон
- +7 (499) 1290822