Ключовата разлика между клъстерирането и класификацията е, че клъстерирането е техника за неконтролирано обучение, която групира подобни екземпляри на базата на характеристики, докато класификацията е техника за контролирано обучение, която присвоява предварително дефинирани тагове на екземплярите на базата на характеристики.
Въпреки че групирането и класифицирането изглеждат подобни процеси, има разлика между тях въз основа на тяхното значение. В света на извличането на данни групирането и класификацията са два вида методи за обучение. И двата метода характеризират обектите в групи по една или повече характеристики.
Какво е групиране?
Клъстерирането е метод за групиране на обекти по такъв начин, че обекти с подобни характеристики да се събират, а обекти с различни характеристики да се разделят. Това е често срещана техника за анализ на статистически данни за машинно обучение и извличане на данни. Проучвателният анализ и обобщение на данни също е област, която използва групиране.
Фигура 01: Групиране
Клъстерирането принадлежи към неконтролираното извличане на данни. Това не е един конкретен алгоритъм, а общ метод за решаване на задача. Следователно е възможно да се постигне групиране с помощта на различни алгоритми. Подходящият алгоритъм на клъстера и настройките на параметрите зависят от отделните набори от данни. Това не е автоматична задача, а е итеративен процес на откриване. Следователно е необходимо да се модифицира обработката на данни и моделирането на параметрите, докато резултатът постигне желаните свойства. K-означава групиране и йерархично групиране са два често срещани алгоритъма за групиране в извличането на данни.
Какво е класификация?
Класификацията е процес на категоризиране, който използва обучителен набор от данни за разпознаване, разграничаване и разбиране на обекти. Класификацията е техника за контролирано обучение, при която са налични набор за обучение и правилно дефинирани наблюдения.
Фигура 02: Класификация
Алгоритъмът, който прилага класификацията, е класификаторът, докато наблюденията са случаите. Алгоритъмът K-Nearest Neighbor и алгоритмите за дърво на решенията са най-известните алгоритми за класификация в извличането на данни.
Каква е разликата между групиране и класификация?
Клъстерирането е обучение без надзор, докато класифицирането е техника за обучение под надзор. Той групира подобни екземпляри на базата на характеристики, докато класификацията присвоява предварително дефинирани етикети на екземпляри на базата на характеристики. Клъстерирането разделя набора от данни на подмножества, за да групира екземплярите с подобни характеристики. Той не използва етикетирани данни или набор за обучение. От друга страна, категоризирайте новите данни според наблюденията на набора за обучение. Комплектът за обучение е етикетиран.
Целта на клъстерирането е да се групира набор от обекти, за да се установи дали има някаква връзка между тях, докато класификацията има за цел да намери към кой клас принадлежи нов обект от набора от предварително дефинирани класове.
Обобщение – Групиране срещу класификация
Клъстерирането и класификацията може да изглеждат сходни, тъй като и двата алгоритъма за извличане на данни разделят набора от данни на подмножества, но те са две различни техники за обучение при извличане на данни за получаване на надеждна информация от колекция от необработени данни. Разликата между клъстеризирането и класификацията е, че клъстерирането е техника за неконтролирано обучение, която групира подобни екземпляри на базата на характеристики, докато класификацията е техника за контролирано обучение, която присвоява предварително дефинирани тагове на екземплярите на базата на характеристики.
С любезното съдействие на изображението:
1.”Cluster-2″ от Cluster-2.gif: производна работа на hellisp: (Обществено достояние) чрез Wikimedia Commons 2.”Магнетизъм” от Джон Аплесед – Собствена работа. (Обществено достояние) чрез Wikimedia Commons