Чи можете ви запустити регресію з категоріальними змінними в R?
Регресійну модель можна підібрати, використовуючи фіктивні змінні як предиктори. У R використання lm() для регресійного аналізу, якщо предиктор встановлений як категоріальна змінна, то процедура фіктивного кодування є автоматичною.
У моделі лінійної регресії можна включити категоріальні змінні, хоча це не так просто, як включення безперервних змінних. Проте можна зробити висновок про відмінності між групами як у середніх значеннях результату, так і щодо впливу інших змінних на результат.
Категоріальна регресія кількісно визначає категоричні дані шляхом присвоєння категоріям числових значень, що призводить до отримання оптимального рівняння лінійної регресії для перетворених змінних. Категоріальна регресія також відома під абревіатурою CATREG, що означає категоріальна регресія.
Є дві речі, які пояснюють, чому лінійна регресія не підходить для класифікації. Перший такий Лінійна регресія має справу з неперервними значеннями, тоді як проблеми класифікації вимагають дискретних значень. Друга проблема стосується зміни порогового значення, коли додаються нові точки даних.
Категоріальні змінні з двома рівнями. Нагадаємо, що рівняння регресії для прогнозування змінної результату (y) на основі змінної предиктора (x) можна просто записати як y = b0 + b1*x . b0 і `b1 є бета-коефіцієнтами регресії, що представляють відрізок і нахил відповідно.
У R використання lm() для регресійного аналізу, якщо предиктор встановлений як категоріальна змінна, то процедура фіктивного кодування є автоматичною. Однак нам потрібно з’ясувати, як виконується кодування.
У цьому розділі буде показано, що модель регресії лише з фіктивними змінними еквівалентна моделі дисперсійного аналізу (ANOVA). Це можна розширити, щоб контролювати вплив однієї або кількох безперервних пояснювальних змінних, таких як багаторічний досвід, Xi, як використано в попередніх розділах.