안녕하세요?
다중 선형 회귀분석 관련해서 의견을 듣고자 합니다.
종속변수에는 문제가 없는데
어떤 한 독립변수 (물질의 농도로 연속형 변수)에 문제가 있습니다.
사례수가 대략 80개인데
최소값에 65% 정도가 몰려있고
연속형 변수임에도 측정된 변수 값이 최소값 포함 8개 밖에 안됩니다 (정규성에서
굉장히 분포가 벗어나있고 나머지 7개 값도 빈도가 1개 인게 두개 3개 인게 두개 입니다.
지금보는 저널들에서는 같은 값이 80% 이상인데
그냥 연속형 변수라서 그런지 그냥 집어 넣는것 같습니다.
이럴 경우 제 생각에는 더미변수로 변환 (최소값 VS 최소값 초과)
해야하는거 같은데..독립변수와 종속변수와 선형관계라 보기 어렵기 때문에..
어떻게 생각하시는지요?
혹시 다중 회귀분석에서는 다른 변수를 통제해주기 때문에
한 독립변수에 중복치가 많다 하더라도 다른 방법으로 정확히 예측하는 것인지요 (제가 아는 한 없지만).
감사합니다
혹시 몰라 그래프도 첨부하였습니다.
Graph.pdf
첫댓글 회귀분석에서 y만 확률변수여서 정규분포를 따라야하지만, 독립변수들은 상관없이 그냥 주어진 값 즉 fixed된 값으로 봅니다. 독립변수들끼리 상관관계가 너무 높지않으면 상관없습니다.
답변 감사합니다. 독립변수 정규성 여부보다는 독립변수와 종속변수의 선형성 관련해서 질문을 드릴려고 했는데, 질문이 잘못 됐나 봅니다. 첨부한 그림 상으로는 독립변수와 종속변수가 선형관계라고 보기 애매하고 얼핏 보기에는 +관계인거 같은데 적합시키면 -값이 나와서 더미변환이 더 괜찮은게 아닌가 여쭈어본겁니다 (연속변수임에도 불구하고).
본 질문과 상관 없이 독립변수도 fixed 뿐만아니라 random으로 볼때도 있지 않나요?
그 변수는 별로 설명력이 없어보이네요... 더미변환을 하면 정보를 더 잃게 되어 별로 바람직한것 같지는 않습니다. 우리가 회귀분석이라는 분야는 linear models에 속하는데 거기서는 독립변수를 fixed로 봅니다. linear mixed models를 가도 id같은 이산형변수를 같은 id간에 correlation을 주기위해 random으로 보기도 하고요. 저는 안해봤는데 measurement error 모형에서는 독립변수를 random으로 보는것 같습니다.
아..답변 감사합니다. 댓글을 읽어보니 random이랑 fixed를 다른 것(?)을 지칭하는데 사용한 것 같습니다. 저도 이 자료가 제 전공분야가 아니라 고민하다가..일단 중복 빈도가 높은 값이 실제로 인체에서 발견할 수 있는 기준치를 넘지 못한 값에 임의 값 (이 전공에서 통용되는)을 준 것이기 때문에 메인 메뉴스크립트엔 더미로 넣고 부록에는 그냥 선형 변수로 넣어서 같이제출했습니다. 감사합니다!