Регресия срещу корелация
В статистиката определянето на връзката между две случайни променливи е важно. Той дава възможност да се правят прогнози за една променлива спрямо други. Регресионният анализ и корелацията се прилагат в прогнозите за времето, поведението на финансовите пазари, установяването на физически връзки чрез експерименти и в много по-реални сценарии.
Какво е регресия?
Регресията е статистически метод, използван за начертаване на връзката между две променливи. Често, когато се събират данни, може да има променливи, които зависят от други. Точната връзка между тези променливи може да се установи само чрез регресионните методи. Определянето на тази връзка помага да се разбере и предвиди поведението на една променлива спрямо другата.
Най-често срещаното приложение на регресионния анализ е да се оцени стойността на зависимата променлива за дадена стойност или диапазон от стойности на независимите променливи. Например, използвайки регресия, можем да установим връзката между цената на стоката и потреблението въз основа на данните, събрани от произволна извадка. Регресионният анализ произвежда регресионната функция на набор от данни, който е математически модел, който най-добре пасва на наличните данни. Това може лесно да бъде представено чрез диаграма на разсейване. Графично, регресията е еквивалентна на намирането на най-подходящата крива за дадения набор от данни. Функцията на кривата е регресионна функция. Използвайки математическия модел, търсенето на дадена стока може да бъде предвидено за дадена цена.
Следователно регресионният анализ се използва широко при прогнозиране и прогнозиране. Използва се и за установяване на връзки в експериментални данни в областта на физиката, химията и много природни науки и инженерни дисциплини. Ако връзката или регресионната функция е линейна функция, тогава процесът е известен като линейна регресия. В точковата диаграма тя може да бъде представена като права линия. Ако функцията не е линейна комбинация от параметрите, тогава регресията е нелинейна.
Какво е корелация?
Корелацията е мярка за силата на връзката между две променливи. Коефициентът на корелация определя количествено степента на промяна в една променлива въз основа на промяната в другата променлива. В статистиката корелацията е свързана с концепцията за зависимост, която е статистическата връзка между две променливи.
Корелационният коефициент на Pearsons или само коефициентът на корелация r е стойност между -1 и 1 (-1≤r≤+1). Това е най-често използваният корелационен коефициент и е валиден само за линейна връзка между променливите. Ако r=0, няма връзка, а ако r≥0, връзката е правопропорционална; т.е. стойността на една променлива се увеличава с увеличаването на другата. Ако r≤0, връзката е обратно пропорционална; т.е. едната променлива намалява, докато другата нараства.
Поради условието за линейност, корелационният коефициент r може също да се използва за установяване на наличието на линейна връзка между променливите.
Каква е разликата между регресия и корелация?
Регресията дава формата на връзката между две случайни променливи, а корелацията дава степента на сила на връзката.
Регресионният анализ създава регресионна функция, която помага за екстраполиране и прогнозиране на резултатите, докато корелацията може да предостави само информация в каква посока може да се промени.
Колкото по-точни линейни регресионни модели се дават от анализа, ако коефициентът на корелация е по-висок. (|r|≥0,8)