KDD срещу извличане на данни
KDD (Откриване на знания в бази данни) е област на компютърните науки, която включва инструменти и теории, които помагат на хората да извличат полезна и неизвестна преди информация информация (т.е. знания) от големи колекции от дигитализирани данни. KDD се състои от няколко стъпки и Data Mining е една от тях. Data Mining е прилагане на специфичен алгоритъм за извличане на модели от данни. Въпреки това KDD и Data Mining се използват взаимозаменяемо.
Какво е KDD?
Както бе споменато по-горе, KDD е област на компютърните науки, която се занимава с извличане на неизвестна преди това и интересна информация от необработени данни. KDD е целият процес на опит за осмисляне на данни чрез разработване на подходящи методи или техники. Този процес се занимава с картографирането на данни от ниско ниво в други форми, които са по-компактни, абстрактни и полезни. Това се постига чрез създаване на кратки отчети, моделиране на процеса на генериране на данни и разработване на прогнозни модели, които могат да предскажат бъдещи случаи. Поради експоненциалния растеж на данните, особено в области като бизнеса, KDD се превърна в много важен процес за преобразуване на това голямо богатство от данни в бизнес разузнаване, тъй като ръчното извличане на модели стана изглежда невъзможно през последните няколко десетилетия. Например, в момента се използва за различни приложения като анализ на социални мрежи, откриване на измами, наука, инвестиции, производство, телекомуникации, почистване на данни, спорт, извличане на информация и до голяма степен за маркетинг. KDD обикновено се използва за отговор на въпроси като кои са основните продукти, които могат да помогнат за получаване на висока печалба през следващата година в Wal-Mart?. Този процес има няколко стъпки. Започва с разработване на разбиране за домейна на приложението и целта и след това създаване на целеви набор от данни. Това е последвано от почистване, предварителна обработка, намаляване и проектиране на данни. Следващата стъпка е използването на Data Mining (обяснено по-долу) за идентифициране на модел. И накрая, откритите знания се консолидират чрез визуализиране и/или тълкуване.
Какво е извличане на данни?
Както бе споменато по-горе, Data Mining е само стъпка от цялостния процес на KDD. Има две основни цели за извличане на данни, определени от целта на приложението, а именно проверка или откриване. Проверката е проверка на хипотезата на потребителя относно данните, докато откриването автоматично намира интересни модели. Има четири основни задачи за извличане на данни: групиране, класификация, регресия и асоцииране (обобщаване). Клъстерирането е идентифициране на подобни групи от неструктурирани данни. Класификацията е обучение на правила, които могат да се прилагат към нови данни. Регресията е намиране на функции с минимална грешка за моделиране на данни. А асоциацията търси връзки между променливи. След това трябва да се избере конкретният алгоритъм за извличане на данни. В зависимост от целта могат да бъдат избрани различни алгоритми като линейна регресия, логистична регресия, дървета на решенията и Naive Bayes. След това се търсят интересни модели в една или повече представителни форми. И накрая, моделите се оценяват или с помощта на предсказваща точност, или разбираемост.
Каква е разликата между KDD и Data mining?
Въпреки че двата термина KDD и Data Mining често се използват взаимозаменяемо, те се отнасят до две свързани, но малко различни концепции. KDD е цялостният процес на извличане на знания от данни, докато Data Mining е стъпка в процеса на KDD, която се занимава с идентифициране на модели в данните. С други думи, Data Mining е само прилагането на специфичен алгоритъм, базиран на общата цел на KDD процеса.