SmartUzText: Гибридный подход к автоматической классификации узбекоязычных текстов на основе морфологического анализа и машинного обучения
Keywords:
обработка естественного языка, классификация текстов, узбекский язык, морфологический анализ, машинное обучение, агглютинативные языки, низкоресурсные языки, корпусная лингвистика, NLPAbstract
Настоящее исследование посвящено разработке инновационного программного инструментария для автоматической классификации текстов на узбекском языке, являющемся типичным представителем агглютинативных языков с ограниченными ресурсами. В работе представлен гибридный подход, интегрирующий методы морфологического анализа с современными алгоритмами машинного обучения (Naive Bayes, Support Vector Machines, Conditional Random Fields). Был сформирован специализированный корпус узбекоязычных текстов объемом 746,738 токенов, структурированный по тематическим категориям (новости, спорт, культура, экономика, образование). Экспериментальная валидация продемонстрировала высокую эффективность предложенного подхода: точность классификации достигла 92.75% (F1-мера), что существенно превосходит базовые методы. Разработанный инструмент может быть адаптирован для других тюркских языков с низкой ресурсообеспеченностью.References
Hirschberg, J., & Manning, C. D. (2015). Advances in natural language processing. Science, 349(6245), 261-266.
Joshi, P., Santy, S., Budhiraja, A., Bali, K., & Choudhury, M. (2020). The state and fate of linguistic diversity and inclusion in the NLP world. Proceedings of ACL 2020, 6282-6293.
Madatov, K., Bekchanov, S., & Vičič, J. (2022). Dataset of stopwords extracted from uzbek texts. Data in Brief, 43, 108351.
Raxmatova, S., & Kuzibayeva, M. (2021). Generality and specificity of dialectics in the Uzbek language. Economics and Society, 9(88), 245-251.
Sharipov, M., & Yuldashov, O. (2022). UzbekStemmer: Development of a Rule-Based Stemming Algorithm. CEUR Workshop Proceedings, 3315, 137-144.
Fierman, W. (2005). Kazakh language and prospects for its role in Kazakh groupness. Ab Imperio, 2, 393-423.
Mengliev, D., Barakhnin, V., Abdurakhmonova, N., & Eshkulov, M. (2024). Developing named entity recognition algorithms for Uzbek: Dataset insights and implementation. Data in Brief, 54, 110413.
Abdurakhmonova, N., Shirinova, R., Sayfullayeva, R., Mengliev, D., Ibragimov, B., & Ernazarova, M. (2025). An annotated morphological dataset for Uzbek word forms. Data in Brief, 61, 111702.
Allaberdiev, B., Matlatipov, G., Kuriyozov, E., & Rakhmonov, Z. (2024). Parallel texts dataset for Uzbek-Kazakh machine translation. Data in Brief, 53, 110194.
Mengliev, D., Abdurakhmonova, N., Hayitbayeva, D., & Barakhnin, V. (2023). Automating the transition from dialectal to literary forms in Uzbek language texts. IEEE APEIE, 1440-1443.
Kuriyozov, E., Matlatipov, S., Alonso, M.A., & Gomez-Rodríguez, C. (2022). Construction and evaluation of sentiment datasets for low-resource languages: The case of Uzbek. Language and Technology Conference, 232-243.
Elov, B., & Samatboyeva, M. (2023). Identifying NER objects in Uzbek language texts. Science and Innovation, 2(4), 115-122.
Brown, P. F., Della Pietra, S. A., Della Pietra, V. J., & Mercer, R. L. (1993). The mathematics of statistical machine translation. Computational Linguistics, 19(2), 263-311.
Lafferty, J., McCallum, A., & Pereira, F. C. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. ICML, 282-289.
Vapnik, V. N. (1999). The Nature of Statistical Learning Theory (2nd ed.). Springer-Verlag.
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed.). Pearson.
Palchunov, D., & Akhmedov, E. (2023). Development of logical methods for extracting emotional assessments. IEEE APEIE, 1460-1465.
Mengliev, D., Akhmedov, E., Barakhnin, V., Hakimov, Z., & Alloyorov, O. (2023). Utilizing lexicographic resources for sentiment classification in Uzbek. IEEE APEIE, 1720-1724.
Agirre, E., & Edmonds, P. (2007). Word Sense Disambiguation: Algorithms and Applications. Springer.




