2025 -Yil
13-Fevral
RAQAMLI DUNYO: MATEMATIK VA INFORMATIK
YONDASHUVLAR
Respublika ilmiy-uslubiy konferensiyasi
51
BELGILARNI TANLASH VA OPTIMALLASHTIRISH USULLARI
Shukrulloyev Bektosh Robillo o‘g‘li
TMC instituti Amaliy matematika va informatika kafedrasi mudiri
Abdujabborov Muhammadyusuf Nodirjon o‘g‘li
TMC instituti Axborot tizimlari va texnologiyalari yo‘nalishi 1-kurs talabasi
email:
b.shukrulloyev@tmci.uz
https://doi.org/10.5281/zenodo.14845584
Annotatsiya.
Ushbu maqolada mashinaviy o‘rganish va sun’iy intellektda ishlatiladigan
belgilarni tanlash va optimallashtirish usullari tahlil qilinadi. Belgilarni tanlash modeli
samaradorligini oshirish, hisoblash xarajatlarini kamaytirish va haddan tashqari moslashuv
(overfitting) muammosini bartaraf etishga yordam beradi. Maqolada filtr, o‘rganishga
asoslangan va ansambl usullari ko‘rib chiqiladi hamda ularning samaradorligi real ma’lumotlar
asosida baholanadi. Belgilarni tanlash jarayoni mashinaviy o‘rganish algoritmlarining
natijalariga katta ta’sir ko‘rsatadi. Agar noto‘g‘ri belgilar tanlansa, model noto‘g‘ri qarorlar
qabul qilishi mumkin. Shu sababli, belgilarni samarali tanlash va optimallashtirish tadqiqotning
asosiy yo‘nalishlaridan biridir. Zamonaviy algoritmlar belgilarni avtomatik tanlash usullaridan
foydalanishga imkon beradi. Ushbu tadqiqotda turli usullar qiyosiy tahlil qilinadi.
Kalit so‘zlar
: belgilarni tanlash, optimallashtirish, filtr usullari, ansambl usullari, haddan
tashqari moslashuv.
Kirish.
Mashinaviy o‘rganish tizimlarining samaradorligi ma’lumotlar sifatiga bog‘liq.
Ma’lumotlarning ortiqcha yoki kerakli bo‘lmagan belgilar bilan ta’minlanganligi
algoritmning ishlashini sustlashtirishi va natijalarni noto‘g‘ri talqin qilishga olib kelishi mumkin.
Shu sababli, belgilarni tanlash va optimallashtirish muhim hisoblanadi. Ushbu maqolada asosiy
belgilarni tanlash usullari, ularning afzalliklari va kamchiliklari ko‘rib chiqiladi. Ko‘pgina real
dunyo muammolari murakkab va ko‘p o‘lchamli ma’lumotlar bilan bog‘liq. Belgilarni kamaytirish
hisoblash xarajatlarini kamaytiradi va modelning ishlash samaradorligini oshiradi. Tanlangan
belgilar modelning tushunarli bo‘lishiga ham yordam beradi. Shu bois, belgilarni optimallashtirish
va saralash algoritmlari tadqiqotchilar uchun dolzarb masalalardan biri hisoblanadi.
Belgilarni Tanlash Usullari
Filtr usullari.
Filtr usullari statistik o‘lchovlar yordamida belgilarni tanlaydi va model
qurish jarayonidan mustaqil ishlaydi. Eng keng tarqalgan filtr usullari quyidagilardir:
Mutual Information (MI)
– belgilar va natijaviy o‘zgaruvchi o‘rtasidagi bog‘liqlikni
o‘lchaydi. Ushbu usul o‘zgaruvchilar orasidagi axborot oqimini hisoblash orqali eng muhim
belgilarni ajratadi.
Chi-kvadrat testi
– diskret belgilar orasidagi bog‘liqlikni aniqlash uchun ishlatiladi.
Ushbu test turli sinflar bo‘yicha belgilarning statistik ta’sirini aniqlashga yordam beradi.
ANOVA F-test
– uzluksiz va diskret o‘zgaruvchilar orasidagi bog‘liqlikni tahlil qilishga
yordam beradi. Ushbu test ma’lumotlarning farqliligini baholash uchun ishlatiladi.
Information Gain
– ma’lumotlarning qanchalik muhimligini aniqlashda qo‘llaniladi. U
ma’lumotlar entropiyasini tahlil qilib, eng muhim belgilarni tanlash imkonini beradi.
Variance Threshold
– o‘zgaruvchanlik darajasi past bo‘lgan belgilarni chiqarib tashlaydi.
Ushbu usul faqat yuqori dispersiyali belgilarni qoldirish orqali ma’lumotlarni tozalaydi.
2025 -Yil
13-Fevral
RAQAMLI DUNYO: MATEMATIK VA INFORMATIK
YONDASHUVLAR
Respublika ilmiy-uslubiy konferensiyasi
52
Correlation Coefficient
– belgilar o‘rtasidagi o‘zaro bog‘liqlik darajasini o‘lchaydi. Agar
ikki belgi bir-biriga juda bog‘liq bo‘lsa, ulardan biri chiqarib tashlanishi mumkin.
Fisher Score
– sinflar o‘rtasidagi ajratish qobiliyatini baholash uchun ishlatiladi. Ushbu
usul belgilarni sinflarga ta’sir qilishiga qarab baholaydi.
O‘rganishga asoslangan usullar.
Bu usullar belgilarni model qurish jarayonida tanlaydi.
Ular quyidagilarni o‘z ichiga oladi:
Recursive Feature Elimination (RFE)
– model muhim deb topgan belgilarni qoldirib,
unchalik ahamiyatli bo‘lmaganlarini chiqarib tashlaydi. Ushbu usul rekursiv ravishda belgilarni
olib tashlash orqali eng muhimlarini aniqlaydi.
Lasso Regression
– ortiqcha belgilarni yo‘q qilish uchun L1 regulizatsiyadan foydalanadi.
Bu usul belgilarni nolga tushirish orqali ularni tanlab olishni osonlashtiradi.
Elastic Net
– L1 va L2 regulizatsiyani birlashtirib ishlaydi. Ushbu usul yuqori
bog‘liqlikdagi belgilarni yaxshiroq boshqarish imkonini beradi.
Tree-based feature selection
– qaror daraxtlaridan foydalanib belgilarni tanlaydi. Ushbu
yondashuv daraxt modelining ichki tuzilishiga asoslanib, muhim belgilarni ajratib oladi.
Stepwise selection
– orqaga va oldinga qadam usullari orqali optimal belgilar to‘plamini
tanlaydi. Modelning umumiy samaradorligini yaxshilash uchun dinamik tanlash ishlatiladi.
Feature Importance via Gradient Boosting
– Gradient Boosting usuli yordamida muhim
belgilarni saralaydi. Ushbu yondashuv modelning turli iteratsiyalarida belgilar muhimligini tahlil
qiladi.
Wrapper Methods
– model natijalariga asoslangan holda optimal belgilarni tanlash
usullarini qo‘llaydi. Ushbu usullar maxsus qidiruv algoritmlari orqali eng yaxshi natijani
ta’minlaydi.
Munozara.
Tadqiqot natijalari shuni ko‘rsatadiki, belgilarni tanlash usullari model
natijalariga sezilarli ta’sir qiladi. Filtr usullari tezkor natija beradi, lekin ularning aniqligi
cheklangan bo‘lishi mumkin. O‘rganishga asoslangan usullar ancha moslashuvchan bo‘lib,
modelga xos belgilarni samarali ajratib oladi.
Xususan, Lasso Regression va Recursive Feature Elimination (RFE) ko‘plab hollarda
samarali natija bergani kuzatildi. Ansambl usullari, ayniqsa Gradient Boosting, belgilar tanlash
jarayonini yanada yaxshilash imkonini beradi. Kelajakda bu usullarni kombinatsiya qilish orqali
yanada mukammal belgilar tanlash tizimlarini yaratish imkoniyati mavjud.
Xulosa.
Belgilarni tanlash va optimallashtirish modeli samaradorligini oshirishda muhim
ahamiyat kasb etadi. Filtr, o‘rganishga asoslangan va ansambl usullari orqali belgilarni tanlash
modelning ishlash tezligi va aniqligini yaxshilaydi. Kelajakda chuqur o‘rganish va tabiiy tilni
qayta ishlash kabi sohalarda belgilarni avtomatik tanlash texnologiyalarini rivojlantirish
istiqbollari mavjud.
Belgilarni tanlashning samarali usullaridan foydalanish model murakkabligini kamaytiradi
va umumiy natijalarni yaxshilash imkonini beradi. Optimallashtirilgan belgilar to‘plami hisoblash
samaradorligini oshiradi va resurslardan tejamli foydalanishga imkon beradi. Turli ma’lumotlar
to‘plamlari uchun mos keluvchi usullarni tanlash ilmiy izlanishlarning muhim yo‘nalishlaridan
biridir.
2025 -Yil
13-Fevral
RAQAMLI DUNYO: MATEMATIK VA INFORMATIK
YONDASHUVLAR
Respublika ilmiy-uslubiy konferensiyasi
53
Foydalanilgan Adabiyotlar
1.
Büyükkeçeci, M., & Okur, M. C. (2022).
A Comprehensive Review of Feature Selection
and Feature Selection Stability in Machine Learning
. Gazi University Journal of Science,
36(4), 1506-1520.
2.
Piuel, N., Abbas, A., & Elly, B. (2024).
Optimizing Feature Selection Techniques to
Enhance Machine Learning Algorithm Performance
. ResearchGate.
3.
Tamura, R., Takano, Y., & Miyashiro, R. (2022).
Feature Subset Selection for Kernel SVM
Classification via Mixed-Integer Optimization
. arXiv preprint arXiv:2205.14325.
4.
Liao, Y., Rivoir, J., Latty, R., & Yang, B. (2022).
Deep Feature Selection Using a Novel
Complementary Feature Mask
. arXiv preprint arXiv:2209.12282.
5.
Yang, Y., Wang, W., Fu, H., & Kuo, C.-C. J. (2022).
On Supervised Feature Selection
from High Dimensional Feature Spaces
. arXiv preprint arXiv:2203.11924.
6.
Turati, G., Ferrari Dacrema, M., & Cremonesi, P. (2022).
Feature Selection for
Classification with QAOA
. arXiv preprint arXiv:2211.02861.
