범위 , 범위 또는 진폭, 통계, 최대 값과 샘플 또는 모집단의 데이터 세트의 최소값 사이의 차이 (감산)된다. 범위가 문자 R로 표시되고 데이터가 x로 표시되는 경우 범위의 공식은 다음과 같습니다.
R = x 최대 -x 최소
여기서 x max 는 데이터의 최대 값이고 x min 은 최소값입니다.
그림 1. 지난 2 세기 동안의 카디스 인구에 해당하는 데이터 범위. 출처 : Wikimedia Commons.
이 개념은 데이터가 발견 된 구간의 확장 또는 길이를 나타 내기 때문에 데이터의 변동성을 신속하게 파악하기위한 간단한 분산 척도로 매우 유용합니다.
예를 들어, 한 대학의 공대 1 학년 남자 25 명의 키를 측정한다고 가정 해 보겠습니다. 그룹에서 가장 키가 큰 학생은 1.93m이고 가장 짧은 학생은 1.67m입니다. 이들은 샘플 데이터의 극한 값이므로 경로는 다음과 같습니다.
R = 1.93-1.67m = 0.26m 또는 26cm.
이 그룹의 학생 키는이 범위를 따라 분포됩니다.
장점과 단점
범위는 앞서 말했듯이 데이터가 얼마나 분산되어 있는지를 나타내는 척도입니다. 작은 범위는 데이터가 어느 정도 가깝고 스프레드가 낮음을 나타냅니다. 반면에 범위가 클수록 데이터가 더 분산되어 있음을 나타냅니다.
범위 계산의 장점은 분명합니다. 단순한 차이이기 때문에 찾기가 매우 쉽고 빠릅니다.
그것은 또한 그것이 작동하는 데이터와 동일한 단위를 가지고 있으며 어떤 관찰자에게도 개념을 해석하기가 매우 쉽습니다.
공대생 키의 예에서 범위가 5cm 였다면 학생들은 모두 거의 같은 크기라고 말할 수 있습니다. 그러나 26cm의 범위에서 우리는 즉시 샘플에 모든 중간 높이의 학생이 있다고 가정합니다. 이 가정이 항상 맞습니까?
분산의 척도로서 범위의 단점
자세히 살펴보면 25 명의 공대생 표본에서 그중 한 명만 1.93이고 나머지 24 명은 1.67m에 가까운 높이를 가지고있을 수 있습니다.
그러나 그 반대가 완벽하게 가능하더라도 범위는 동일하게 유지됩니다. 대다수의 높이는 약 1.90m이고 하나는 1.67m입니다.
두 경우 모두 데이터 분포가 상당히 다릅니다.
분산의 척도로서 범위의 단점은 극단적 인 값만 사용하고 다른 모든 값을 무시하기 때문입니다. 대부분의 정보가 손실되므로 샘플 데이터가 어떻게 배포되는지 알 수 없습니다.
또 다른 중요한 특징은 샘플의 범위가 결코 감소하지 않는다는 것입니다. 더 많은 정보를 추가하면, 즉 더 많은 데이터를 고려하면 범위가 증가하거나 동일하게 유지됩니다.
어떤 경우에도 작은 샘플로 작업 할 때만 유용하며 큰 샘플에서 분산의 척도로만 사용하는 것은 권장되지 않습니다.
해야 할 일은 전체 데이터가 제공하는 정보 인 사 분위수 범위, 분산, 표준 편차 및 변동 계수를 고려하는 다른 분산 측정 값의 계산으로이를 보완하는 것입니다.
사 분위수 범위, 사 분위수 및 작업 예제
분산의 척도로서 범위의 약점은 데이터 분포의 극단 값 만 사용하고 나머지는 생략한다는 것입니다.
이러한 불편 함을 피하기 위해 사 분위수가 사용됩니다 : 위치 측정 값으로 알려진 세 가지 값.
그룹화되지 않은 데이터를 네 부분으로 배포합니다 (다른 널리 사용되는 위치 측정 값은 십 분위수 및 백분위 수). 다음은 그 특징입니다.
-제 1 사 분위수 Q 1 은 모든 데이터의 25 %가 Q 1 미만이되는 데이터의 값입니다 .
-2 사 분위수 Q 2 는 분포의 중앙값으로, 데이터의 절반 (50 %)이이 값보다 작다는 것을 의미합니다.
-마지막으로, 제 3 사 분위수 Q 3 은 데이터의 75 %가 Q 3 보다 작다는 것을 나타냅니다 .
그리고, 분위 분위 범위 또는 범위 제 분위 Q 사이의 차이로 정의되는 3 및 제 분위 Q 1 데이터 :
사 분위 간 범위 = R Q = Q 3 -Q 1
이런 식으로 범위 R Q 의 값은 극단 값의 영향을받지 않습니다. 이러한 이유로 위에서 설명한 매우 키가 크거나 매우 작은 학생의 분포와 같이 치우친 분포를 처리 할 때 사용하는 것이 좋습니다.
-사 분위수 계산
그것들을 계산하는 방법은 여러 가지가 있습니다. 여기서 우리는 하나를 제안 할 것입니다. 그러나 어떤 경우에도 각각의 사 분위수가 분포에서 차지하는 위치 인 주문 번호 "N o " 를 알아야합니다 .
즉, 예를 들어 Q 1에 해당하는 용어가 분포의 두 번째, 세 번째 또는 네 번째 등이면됩니다.
1 사 분위
N 또는 (Q 1 ) = (N + 1) / 4
2 사 분위 또는 중앙값
N 또는 (Q 2 ) = (N + 1) / 2
3 분위
N 또는 (Q 3 ) = 3 (N + 1) / 4
여기서 N은 데이터 수입니다.
중앙값은 분포의 중간에있는 값입니다. 데이터 수가 홀수이면 찾는 데 문제가 없지만 짝수이면 두 중심 값이 평균이되어 하나가됩니다.
주문 번호가 계산되면 다음 세 가지 규칙 중 하나를 따릅니다.
-소수점이 없으면 분포에 표시된 데이터를 검색하여 구하는 사 분위수가됩니다.
-주문 번호가 둘 사이의 중간 일 때 정수 부분으로 표시된 데이터는 다음 데이터로 평균화되고 그 결과는 해당 사 분위수입니다.
-다른 경우에는 가장 가까운 정수로 반올림되며 이것이 사 분위수의 위치가됩니다.
작동 예
0에서 20까지의 척도에서 16 명의 수학 I 학생 그룹은 중간 시험에서 다음과 같은 점수 (점)를 받았습니다.
16, 10, 12, 8, 9, 15, 18, 20, 9, 11, 1, 13, 17, 9, 10, 14
찾기:
a) 데이터의 범위 또는 범위.
b) 사 분위수 Q 1 및 Q 3 의 값
c) 사 분위수 범위.
그림 2.이 수학 시험의 점수는 그 정도의 변동성이 있습니까? 출처 : Pixabay.
솔루션
경로를 찾기 위해 가장 먼저해야 할 일은 데이터를 증가 또는 감소 순서로 정렬하는 것입니다. 예를 들어 오름차순으로 다음이 있습니다.
1, 8, 9, 9, 9, 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20
처음에 주어진 공식 사용 : R = x max -x min
R = 20-1 점 = 19 점.
결과에 따르면 이러한 등급은 큰 분산을 가지고 있습니다.
솔루션 b
N = 16
N 또는 (Q 1 ) = (N + 1) / 4 = (16 + 1) / 4 = 17/4 = 4.25
정수 부분이 4 인 소수가있는 숫자입니다. 그런 다음 분포로 이동하여 네 번째 자리를 차지하는 데이터를 찾고 그 값은 다섯 번째 자리의 데이터와 평균을냅니다. 둘 다 9이므로 평균도 9이므로 다음과 같습니다.
질문 1 = 9
이제 절차를 반복하여 Q 3 을 찾습니다 .
N 또는 (Q 3 ) = 3 (N + 1) / 4 = 3 (16 +1) / 4 = 12.75
다시 소수점이지만 절반이 아니기 때문에 13으로 반올림됩니다.
질문 3 = 16
솔루션 c
R Q = Q 3 -Q 1 = 16-9 = 7 점.
보시다시피, 섹션 a)에서 계산 된 데이터 범위보다 훨씬 작습니다. 최소 점수는 나머지 점수보다 훨씬 더 먼 1 점 이었기 때문입니다.
참고 문헌
- Berenson, M. 1985. 관리와 경제를위한 통계. Interamericana SA
- Canavos, G. 1988. 확률 및 통계 : 응용 프로그램 및 방법. McGraw Hill.
- Devore, J. 2012. 공학 및 과학에 대한 확률 및 통계. 8 일. 판. Cengage.
- 사 분위수의 예. 출처 : matematicas10.net.
- Levin, R. 1988. 관리자를위한 통계. 2 위. 판. 프렌 티스 홀.
- Walpole, R. 2007. 공학 및 과학을위한 확률 및 통계. 피어슨.