개체(표본집단) 1개의 평균이 정말 해당 집단을 대표할 수 있나?
--> 여러 표본집단의 평균을 통해 추리할 수 있다 ( 표본집단의 평균,분산,분포 활용 가능 )
당근길이(또는 생산량)은 재배지역, 토양, 강수, 습도, 온도, 기간에 따라 달라질 수 있다.
Q1. 어떤 분포를 가정해야 할까?
--> 참고인용 논문, 그래프 시각화, MCMC
실험결과(데이터)를 얻었다.
Q2. 가정한 분포에서 내가 얻은 관측치 또는 관측치의 대표값은 어디에 위치하나?
Q3. 가정한 모형에서 동일한 조건으로 얻은 예측치와 실제 관측치는 얼마나 차이가 있나?
--> 가정한 분포에 따라 quantile 계산하기
--> 유의수준을 설정해 비교검정하기 / 이상치 찾기
Q4. 표본에서 얻은 대표값이 실제와 유사하다고 믿으려면 대표값이 어느정도여야 하나?
--> 신뢰구간 찾기
--> 샘플의 평균/비율이 대표성이 있으려면 샘플간 다소간의 차이만 허용해야 한다.
즉, 극단적인 오차범위를 제외한 샘플, 신뢰범위안에 있는 샘플이어야 한다. 이를 신뢰구간이라 함.
Q5. 두 모집단을 비교할 때, 사용할 대표값으로 무엇이 적절한가?
--> 상황에 맞게 정해야 하며, 평균/중위수/분산 등이 있다. 집단의 분포(분산)이 비슷하면 평균/중위수 차이검정히 편리함.
Q6. 모든게 불확실한 실험이다. 극단치를 어떻게 계량화 하는가?
--> 유의확률 ( 제 1종 오류율 )을 통해 귀무가설을 기각할 극단치의 발생가능성 측정가능함. (*제 2종 오류율은 반대)
Q7. 같은 데이터를 사용해도 가설설정을 어떻게 했느냐에 따라 제1종오류율이 달라진다. 어떻게 해야 하나?
--> 음...실험자의 경험(직관)과 참고논문에 의지해보자.
'Statistics > DesignOExperiments' 카테고리의 다른 글
회귀분석 하는 방법/프로토콜 (0) | 2021.02.22 |
---|---|
데이터분석 잘~ 하는 법 10가지 (0) | 2021.02.22 |
DOE- 7.(곡선형) Response surface Design (0) | 2020.11.24 |
DOE - 6. Factorial design ( Blocking ) (0) | 2020.11.24 |
DOE - 3. 번외 Correlation and Regression analysis (0) | 2020.11.24 |