Разлика между йерархично и частично клъстериране

Разлика между йерархично и частично клъстериране
Разлика между йерархично и частично клъстериране

Видео: Разлика между йерархично и частично клъстериране

Видео: Разлика между йерархично и частично клъстериране
Видео: Такие разные бесконечности. Счётные и несчётные множества | матан #005 | Борис Трушин ! 2024, Юли
Anonim

Йерархично срещу частично клъстериране

Клъстерирането е техника за машинно обучение за анализиране на данни и разделяне на групи от подобни данни. Тези групи или набори от подобни данни са известни като клъстери. Клъстерният анализ разглежда алгоритми за клъстериране, които могат автоматично да идентифицират клъстери. Йерархичен и разделен са два такива класа алгоритми за групиране. Алгоритмите за йерархично клъстериране разбиват данните в йерархия от клъстери. Париционните алгоритми разделят набора от данни на взаимно несвързани дялове.

Какво е йерархично групиране?

Алгоритмите за йерархично клъстериране повтарят цикъла или на сливане на по-малки клъстери в по-големи, или на разделяне на по-големи клъстери на по-малки. Така или иначе, той създава йерархия от клъстери, наречена дендограма. Стратегията за агломеративно клъстериране използва подхода отдолу нагоре за сливане на клъстери в по-големи, докато стратегията за разделяне на клъстери използва подхода отгоре надолу за разделяне на по-малки. Обикновено алчният подход се използва при решаването кои по-големи/по-малки клъстери се използват за сливане/разделяне. Евклидово разстояние, разстояние Манхатън и сходство по косинус са едни от най-често използваните показатели за сходство за числови данни. За нечислови данни се използват показатели като разстоянието на Хеминг. Важно е да се отбележи, че действителните наблюдения (инстанции) не са необходими за йерархично групиране, тъй като е достатъчна само матрицата на разстоянията. Дендограмата е визуално представяне на клъстерите, което показва йерархията много ясно. Потребителят може да получи различно групиране в зависимост от нивото, на което е изрязана дендограмата.

Какво е частично клъстериране?

Алгоритмите за разделно клъстериране генерират различни дялове и след това ги оценяват по някакъв критерий. Те също се наричат нейерархични, тъй като всеки екземпляр е поставен в точно един от k взаимно изключващи се клъстера. Тъй като само един набор от клъстери е резултат от типичен алгоритъм за частично клъстериране, от потребителя се изисква да въведе желания брой клъстери (обикновено наричани k). Един от най-често използваните алгоритми за частично клъстериране е алгоритъмът за клъстериране на k-средни стойности. От потребителя се изисква да предостави броя на клъстерите (k) преди стартиране и алгоритъмът първо инициира центровете (или центроидите) на k дяла. Накратко, алгоритъмът за групиране на k-означава след това присвоява членове въз основа на текущите центрове и преоценява центровете въз основа на текущите членове. Тези две стъпки се повтарят, докато се оптимизират определена целева функция за вътрешно клъстерно подобие и целева функция за междуклъстерно различие. Следователно, разумната инициализация на центровете е много важен фактор за получаване на качествени резултати от алгоритми за частично клъстериране.

Каква е разликата между йерархично и частично клъстериране?

Йерархичното и частичното клъстериране имат ключови разлики във времето на изпълнение, допусканията, входните параметри и получените клъстери. Обикновено частичното клъстериране е по-бързо от йерархичното клъстериране. Йерархичното клъстериране изисква само мярка за сходство, докато частичното клъстериране изисква по-силни допускания като брой на клъстерите и първоначалните центрове. Йерархичното клъстериране не изисква никакви входни параметри, докато алгоритмите за частично клъстериране изискват броя на клъстерите, за да започнат да работят. Йерархичното клъстериране връща много по-смислено и субективно разделение на клъстери, но частичното клъстериране води до точно k клъстера. Алгоритмите за йерархично групиране са по-подходящи за категорични данни, стига съответно да може да се дефинира мярка за сходство.

Препоръчано: