Разлика между извличане на данни и съхранение на данни

Разлика между извличане на данни и съхранение на данни
Разлика между извличане на данни и съхранение на данни

Видео: Разлика между извличане на данни и съхранение на данни

Видео: Разлика между извличане на данни и съхранение на данни
Видео: What is a Server? Servers vs Desktops Explained 2024, Юли
Anonim

Извличане на данни срещу съхранение на данни

Извличането на данни и съхранението на данни са много мощни и популярни техники за анализиране на данни. Потребителите, които са склонни към статистика, използват Data Mining. Те използват статистически модели, за да търсят скрити модели в данните. Копачите на данни се интересуват от намирането на полезни връзки между различни елементи от данни, което в крайна сметка е печелившо за бизнеса. Но от друга страна, експертите по данни, които могат директно да анализират измеренията на бизнеса, са склонни да използват Data warehouses.

Извличането на данни е известно още като откриване на знания в данни (KDD). Както бе споменато по-горе, това е област на компютърните науки, която се занимава с извличане на неизвестна преди това и интересна информация от необработени данни. Поради експоненциалния растеж на данните, особено в области като бизнеса, извличането на данни се превърна във много важен инструмент за преобразуване на това голямо богатство от данни в бизнес разузнаване, тъй като ръчното извличане на модели стана изглежда невъзможно през последните няколко десетилетия. Например, в момента се използва за различни приложения като анализ на социални мрежи, откриване на измами и маркетинг. Извличането на данни обикновено се занимава със следните четири задачи: групиране, класификация, регресия и асоцииране. Клъстерирането е идентифициране на подобни групи от неструктурирани данни. Класификацията е правила за обучение, които могат да бъдат приложени към нови данни и обикновено ще включва следните стъпки: предварителна обработка на данни, проектиране на моделиране, обучение/избор на характеристики и оценка/валидиране. Регресията е намиране на функции с минимална грешка за моделиране на данни. А асоциацията търси връзки между променливи. Извличането на данни обикновено се използва, за да се отговори на въпроси като кои са основните продукти, които могат да помогнат за получаване на висока печалба през следващата година в Wal-Mart?

Както бе споменато по-горе, съхранението на данни също се използва за анализиране на данни, но от различни групи потребители и с малко по-различна цел. Например, когато става въпрос за сектора на търговията на дребно, потребителите на хранилища за данни са по-загрижени за това какви видове покупки са популярни сред клиентите, така че резултатите от анализа могат да помогнат на клиента чрез подобряване на потребителското изживяване. Но миньорите на данни първо предполагат хипотеза, като например кои клиенти купуват определен тип продукт и анализират данните, за да тестват хипотезата. Съхранението на данни може да се извърши от голям търговец на дребно, който първоначално зарежда магазините си със същите размери продукти, за да разбере по-късно, че магазините в Ню Йорк продават инвентар с по-малък размер много по-бързо, отколкото в магазините в Чикаго. Така че, разглеждайки този резултат, търговецът може да запаси магазина в Ню Йорк с по-малки размери в сравнение с магазините в Чикаго.

Така че, както можете ясно да видите, тези два вида анализ изглеждат от едно и също естество с просто око. И двамата се тревожат за увеличаване на печалбите въз основа на исторически данни. Но разбира се, има ключови разлики. С прости думи, Data Mining и Data Warehousing са посветени на предоставянето на различни видове анализи, но определено за различни типове потребители. С други думи, Data Mining търси корелации, модели в подкрепа на статистическа хипотеза. Но Data Warehousing отговаря на сравнително по-широк въпрос и разделя данните оттам нататък, за да разпознае начини за подобрение в бъдеще.

Препоръчано: