Клъстърният анализ е група от статистически техники, предназначени за групиране на множество обекти едновременно по няколко или повече критерия в относително хомогенни малко на брой категории, наречени клъстъри. Обектите във всеки клъстър са подобни помежду си и различни от тези в другите клъстъри.
В качеството на обекти при клъстърния анализ могат да встъпват както случаи, така и променливи. В по-общото му приложение като обекти се използват предимно случаите. Като знаем, те могат да бъдат индивидуални или групови потребители (например домакинствата); различни търговски или индустриални фирми; училища или болнични заведения и т.н. Клъстърният анализ обаче има смисъл главно тогава, когато обектите са множество на брой и в желанието си да ги обхванем и разберем ние се стремим да ги класифицираме в някакви хомогенни категории.
В сегментационните изследвания, които са основният обект на клъстърния анализ в маркетинговите проучвания, се използват множество критерии за класификация. Всички сегметационни променливи например могат успешно да бъдат използвани за тази цел. Колкото повече променливи се използват в рамките на една класификационна процедура, толкова по-богати като съдържание клъстъри могат да бъдат получени., но същевременно и толкова по-трудно тълкуваме е „физиономията" на клъстърите.
Други приложени на клъстърния анализ извън задачите по сегментирането
Разбиране на покупателското поведение
Идентифициране на нови продуктови възможности
Определяне на класификационните критерии |
↓ |
Избиране на мярката за дистанция |
↓ |
Избиране на клъстърен метод |
↓ |
Определяне броя на клъстърите |
↓ |
Тълкуване съдържанието на клъстърите |
↓ |
Оценяване валидността на клъстърите |
↓ |
Профилиране на клъстърите |
Определянето на класификационните критерии е задача, която трябва да се решава в строго съответствие с изследователските проблеми и цели. Зад избора на една или друга променлива в качеството J на класификационна обикновено стоят и някакви теория, хипотеза, опит от предходни изследвания или просто изследователска интуиция.
За да групираме изследваните обекти, в случая фирмите – потребители на компютри марка Х, в еднородния клъстър, е нужно да определим мерките, които ще използваме за измерване на подобието между тях. Най-често използван подход за решаване на тази задача е прилагането на някаква мярка за отдалеченост (дистанция) между два обекта. Алтернативният подход е този на мерките за близост.
Нейерархични методи на клъстъризация
Нейерархичните методи на клъстъризация, често наричани клъстъризация на К-средите, включват три основни процедури.
Последователно прескачане
Паралелно прескачане
За разлика от двете посочени процедури тази на оптималното разпределение позволява прескачането на едни обект в различни клъстъри с цел удовлетворяване някакъв критерий за оптимизация (например средното вътрешноклъстърно разстояние за даден брой клъстъри).