Извличане на данни срещу OLAP
Както извличането на данни, така и OLAP са две от често срещаните технологии за бизнес разузнаване (BI). Бизнес разузнаването се отнася до компютърно базирани методи за идентифициране и извличане на полезна информация от бизнес данни. Извличането на данни е областта на компютърните науки, която се занимава с извличане на интересни модели от големи набори от данни. Той съчетава много методи от изкуствен интелект, статистика и управление на бази данни. OLAP (онлайн аналитична обработка), както подсказва името, е компилация от начини за заявки към многоизмерни бази данни.
Извличането на данни е известно още като откриване на знания в данни (KDD). Както бе споменато по-горе, това е област на компютърните науки, която се занимава с извличане на неизвестна преди това и интересна информация от необработени данни. Поради експоненциалния растеж на данните, особено в области като бизнеса, извличането на данни се превърна във много важен инструмент за преобразуване на това голямо богатство от данни в бизнес разузнаване, тъй като ръчното извличане на модели стана изглежда невъзможно през последните няколко десетилетия. Например, в момента се използва за различни приложения като анализ на социални мрежи, откриване на измами и маркетинг. Извличането на данни обикновено се занимава със следните четири задачи: групиране, класификация, регресия и асоцииране. Клъстерирането е идентифициране на подобни групи от неструктурирани данни. Класификацията е правила за обучение, които могат да бъдат приложени към нови данни и обикновено ще включва следните стъпки: предварителна обработка на данни, проектиране на моделиране, обучение/избор на характеристики и оценка/валидиране. Регресията е намиране на функции с минимална грешка за моделиране на данни. А асоциацията търси връзки между променливи. Извличането на данни обикновено се използва, за да се отговори на въпроси като кои са основните продукти, които могат да помогнат за получаване на висока печалба през следващата година в Wal-Mart.
OLAP е клас системи, които предоставят отговори на многоизмерни заявки. Обикновено OLAP се използва за маркетинг, бюджетиране, прогнозиране и подобни приложения. От само себе си се разбира, че базите данни, използвани за OLAP, са конфигурирани за сложни и ad hoc заявки с мисъл за бърза производителност. Обикновено се използва матрица за показване на изхода на OLAP. Редовете и колоните се формират от размерите на заявката. Те често използват методи за агрегиране на множество таблици, за да получат обобщения. Например, може ли да се използва, за да разберете за продажбите през тази година в Wal-Mart в сравнение с миналата година? Каква е прогнозата за продажбите през следващото тримесечие? Какво може да се каже за тенденцията, като се погледне процентното изменение?
Въпреки че е очевидно, че извличането на данни и OLAP са сходни, защото работят с данни, за да придобият интелигентност, основната разлика идва от начина, по който работят с данни. OLAP инструментите предоставят многоизмерен анализ на данни и предоставят обобщения на данните, но за разлика от тях извличането на данни се фокусира върху съотношения, модели и влияния в набора от данни. Това е OLAP сделка с агрегиране, което се свежда до работа с данни чрез „добавяне“, но извличането на данни съответства на „разделяне“. Друга забележителна разлика е, че докато инструментите за извличане на данни моделират данни и връщат действащи правила, OLAP ще извършва техники за сравнение и контраст по отношение на бизнес измерението в реално време.