Intellektual matn taxlili




Matn qazib olish ( IMT, inglizcha: text mining ) ― sun'iy intellektning yo'nalishi bo'lib, uning maqsadi mashinani o'rganish va tabiiy tilni qayta ishlashning amaliy usullarini qo'llash asosida matni hujjatlar to'plamidan ma’lumot olishdir. "Matn qazib olish" nomi "m’alumotlar qazb olish" tushunchasiga mos keladi ( IAD, inglizcha: data mining ), bu ularning maqsadlari, axborotni qayta ishlashga yondashuvlari va qo‘llanilishi sohalarining o‘xshashligini ifodalaydi; farq faqat yakuniy usullarda, shuningdek, IAD elektron kutubxonalar va matn korpuslari bilan emas, balki omborlar va maʼlumotlar bazalari bilan shug‘ullanishida namoyon bo'ladi.

IAT vazifa guruhlari



IAT vazifalarining asosiy guruhlari quyidagilardan iborat: matnni turkumlash, ma’lumotlarni ajratib olish va qidirish, matn to'plamlaridagi o‘zgarishlarni qayta ishlash va foydalanuvchiga ma‘lumot taqdim etish vositalarini ishlab chiqish.

Hujjatlarni turkumlashtirish to'plamdan hujjatlarni o‘xshash matnlarning bir yoki bir nechta guruhiga (sinflari, klasterlari) (masalan: mavzu yoki uslub bo'yicha) ajratishdan iborat. Kategoriyalashtirish shaxs ishtirokida ham, usiz ham sodir bo‘lishi mumkin. Hujjatlar tasnifi deb ataladigan birinchi holatda, IAT tizimi matnlarni allaqachon aniqlangan (uning uchun qulay) sinflarga kiritishi kerak. Mashinani o‘rganish nuqtai nazaridan, bu nazorat ostida o'rganishni talab qiladi, buning uchun foydalanuvchi IAT tizimiga sinflar to‘plamini va ushbu sinflarga tegishli hujjatlar namunalarini taqdim etishi kerak.

Kategoriyalashtirishning ikkinchi holati hujjatlarni klasterlash deb ataladi. Shu bilan birga, IAT tizimi matnlar tarqatilishi mumkin bo'lgan klasterlar to'plamini o'zi aniqlashi kerak - mashinani o'rganishda tegishli vazifa deyiladi nazoratsiz o‘rganish. Bunday holda, foydalanuvchi IAT tizimiga qayta ishlanayotgan to'plamni bo'lishni xohlagan klasterlar sonini aytishi kerak (xususiyatlarni tanlash protsedurasi allaqachon dastur algoritmiga kiritilgan deb taxmin qilinadi).

Ilova



So'nggi paytlarda matn tahlili xavfsizlik, tijorat va ilm-fan kabi turli sohalarda tobora ko'proq e'tiborni tortmoqda.

Xavfsizlikda



Aerotext va Attensity kabi ko‘plab matn tahlil paketlari xavfsizlik ilovalari bozoriga, xususan, yangiliklar saytlari kabi oddiy matn manbalarini tahlil qilishga qaratilgan.

Dasturiy ta'minotda



IBM, Apple va Microsoft kabi yirik kompaniyalarning tadqiqot va ishlanmalar boʻlimlari kelajakda maʼlumotlarni tahlil qilish va chiqarish jarayonlarini avtomatlashtirish maqsadida matn tahlili texnologiyalarini oʻrganmoqda.

Manbalar




Adabiyot




uz.wikipedia.org

Uzpedia.uz