Линейна срещу логистична регресия
В статистическия анализ е важно да се идентифицират връзките между променливите, засегнати от изследването. Понякога това може да е единствената цел на самия анализ. Един силен инструмент, използван за установяване на съществуването на връзка и идентифициране на връзката, е регресионният анализ.
Най-простата форма на регресионен анализ е линейната регресия, където връзката между променливите е линейна зависимост. В статистически термини той разкрива връзката между обяснителната променлива и променливата на отговора. Например, използвайки регресия, можем да установим връзката между цената на стоката и потреблението въз основа на данни, събрани от произволна извадка. Регресионният анализ ще създаде регресионна функция на набора от данни, която е математически модел, който най-добре отговаря на наличните данни. Това може лесно да бъде представено чрез диаграма на разсейване. Графично регресията е еквивалентна на намирането на най-подходящата крива за даден набор от данни. Функцията на кривата е регресионна функция. С помощта на математическия модел може да се предвиди употребата на дадена стока за дадена цена.
Следователно регресионният анализ се използва широко при прогнозиране и прогнозиране. Използва се и за установяване на връзки в експериментални данни, в областите на физиката, химията и в много природни науки и инженерни дисциплини. Ако връзката или регресионната функция е линейна функция, тогава процесът е известен като линейна регресия. В точковата диаграма тя може да бъде представена като права линия. Ако функцията не е линейна комбинация от параметрите, тогава регресията е нелинейна.
Логистичната регресия е сравнима с многовариантната регресия и създава модел за обяснение на въздействието на множество предиктори върху променлива на отговора. При логистичната регресия обаче променливата на крайния резултат трябва да бъде категорична (обикновено разделена; т.е. двойка постижими резултати, като смърт или оцеляване, въпреки че специалните техники позволяват да се моделира по-категоризирана информация). Непрекъсната променлива на резултата може да се трансформира в категорична променлива, която да се използва за логистична регресия; обаче свиването на непрекъснати променливи по този начин най-вече не се препоръчва, защото намалява точността.
За разлика от линейната регресия, към средната стойност, предикторните променливи в логистичната регресия не трябва да бъдат принуждавани да бъдат линейно свързани, общо разпределени или да имат еднаква вариация във всеки клъстер. В резултат на това връзката между предиктора и променливите на резултата няма вероятност да бъде линейна функция.
Каква е разликата между логистичната и линейната регресия?
• При линейната регресия се приема линейна връзка между обяснителната променлива и променливата на отговора и параметрите, удовлетворяващи модела, се намират чрез анализ, за да се даде точната връзка.
• Извършва се линейна регресия за количествени променливи и получената функция е количествена.
• В логистичната регресия използваните данни могат да бъдат или категорични, или количествени, но резултатът винаги е категоричен.