본문 바로가기
Statistics/DesignOExperiments

DOE - 2. Analytical thinking

by bents 2020. 11. 24.

개체(표본집단) 1개의 평균이 정말 해당 집단을 대표할 수 있나?

--> 여러 표본집단의 평균을 통해 추리할 수 있다  ( 표본집단의 평균,분산,분포 활용 가능 )

 

당근길이(또는 생산량)은 재배지역, 토양, 강수, 습도, 온도, 기간에 따라 달라질 수 있다.

Q1. 어떤 분포를 가정해야 할까? 

--> 참고인용 논문, 그래프 시각화, MCMC

 

실험결과(데이터)를 얻었다. 

Q2. 가정한 분포에서 내가 얻은 관측치 또는 관측치의 대표값은 어디에 위치하나?

Q3. 가정한 모형에서 동일한 조건으로 얻은 예측치와 실제 관측치는 얼마나 차이가 있나? 

--> 가정한 분포에 따라 quantile 계산하기

--> 유의수준을 설정해 비교검정하기 / 이상치 찾기

Q4. 표본에서 얻은 대표값이 실제와 유사하다고 믿으려면 대표값이 어느정도여야 하나?

--> 신뢰구간 찾기 

--> 샘플의 평균/비율이 대표성이 있으려면 샘플간 다소간의 차이만 허용해야 한다. 

즉, 극단적인 오차범위를 제외한 샘플, 신뢰범위안에 있는 샘플이어야 한다. 이를 신뢰구간이라 함.

Q5. 두 모집단을 비교할 때, 사용할 대표값으로 무엇이 적절한가?

--> 상황에 맞게 정해야 하며, 평균/중위수/분산 등이 있다. 집단의 분포(분산)이 비슷하면 평균/중위수 차이검정히 편리함.

Q6. 모든게 불확실한 실험이다. 극단치를 어떻게 계량화 하는가?

--> 유의확률 ( 제 1종 오류율 )을 통해 귀무가설을 기각할 극단치의 발생가능성 측정가능함. (*제 2종 오류율은 반대)

Q7. 같은 데이터를 사용해도 가설설정을 어떻게 했느냐에 따라 제1종오류율이 달라진다. 어떻게 해야 하나?

--> 음...실험자의 경험(직관)과 참고논문에 의지해보자.