결정 계수는 두 변수 데이터 세트의 착용감 회귀 직선을 따라 지점 (X, Y)의 비율을 나타내는 0과 1 사이의 값이다.
적합도라고도하며 R 2 로 표시됩니다 . 이를 계산하기 위해 회귀 모델에 의해 추정 된 데이터 Ŷi의 분산과 데이터의 각 Xi에 해당하는 데이터 Yi의 분산 사이의 몫을 취합니다.
R 2 = Sŷ / Sy

그림 1. 네 쌍의 데이터에 대한 상관 계수. 출처 : F. Zapata.
데이터의 100 %가 회귀 함수의 선에 있으면 결정 계수는 1이됩니다.
반대로, 데이터 세트와 특정 적합 함수에 대해 계수 R 2 가 0.5 인 것으로 판명되면 적합도는 50 % 만족 스럽거나 좋다고 말할 수 있습니다.
마찬가지로 회귀 모델 이 0.5보다 낮은 R 2 값을 산출 하면 선택한 조정 함수가 데이터에 만족스럽게 적응하지 못하므로 다른 조정 함수를 검색해야합니다.
공분산 또는 상관 계수가 제로 경향이 때, 데이터의 변수 X 및 Y는 무관하며, 따라서 R 2 제로 또한 경향 것이다.
결정 계수를 계산하는 방법은 무엇입니까?
이전 섹션에서 결정 계수는 분산 사이의 몫을 찾아 계산한다고 말했습니다.
-변수 Y의 회귀 함수로 추정
-N 데이터 쌍의 각 변수 Xi에 해당하는 변수 Yi의 것.
수학적으로 설명하면 다음과 같습니다.
R 2 = Sŷ / Sy
이 공식에서 R 2 는 회귀 모델에서 설명하는 분산 비율을 나타냅니다. 또는 R 2 는 이전 공식과 완전히 동일한 다음 공식을 사용하여 계산할 수 있습니다 .
R 2 = 1-(Sε / Sy)
여기서 Sε은 잔차 εi = Ŷi-Yi의 분산을 나타내고 Sy는 데이터의 Yi 값 집합의 분산입니다. Ŷi를 결정하기 위해 회귀 함수가 적용됩니다. 이는 Ŷi = f (Xi)임을 확인하는 것을 의미합니다.
i가 1에서 N까지 인 데이터 세트 Yi의 분산은 다음과 같이 계산됩니다.
Sy =
그런 다음 Sŷ 또는 Sε에 대해 유사한 방식으로 진행하십시오.
예시 사례
결정 계수 계산 방법에 대한 세부 정보를 표시하기 위해 다음 네 쌍의 데이터 세트를 사용합니다.
(X, Y) : {(1, 1); (2. 3); (3, 6) 및 (4, 7)}.
최소 제곱 법을 사용하여 얻은이 데이터 세트에 대해 선형 회귀 피팅이 제안됩니다.
에프 (x) = 2.1 x-1
이 조정 기능을 적용하여 토크를 얻습니다.
(X, Ŷ) : {(1, 1.1); (2, 3.2); (3, 5.3) 및 (4, 7.4)}.
그런 다음 X와 Y에 대한 산술 평균을 계산합니다.
분산 Sy
Sy = / (4-1) =
= = 7,583
분산 Sŷ
Sŷ = / (4-1) =
= = 7.35
결정 계수 R 2
R 2 = Sŷ / Sy = 7.35 / 7.58 = 0.97
해석
이전 세그먼트에서 고려한 사례의 결정 계수는 0.98로 밝혀졌습니다. 즉, 기능을 통한 선형 조정 :
에프 (x) = 2.1x-1
최소 제곱 법을 사용하여 얻은 데이터를 설명하는 데있어 98 % 신뢰할 수 있습니다.
결정 계수 외에도 선형 상관 계수 또는 피어슨 계수라고도합니다. r로 표시되는이 계수는 다음 관계로 계산됩니다.
r = Sxy / (Sx Sy)
여기서 분자는 변수 X와 Y 사이의 공분산을 나타내는 반면 분모는 변수 X에 대한 표준 편차와 변수 Y에 대한 표준 편차의 곱입니다.
Pearson의 계수는 -1과 +1 사이의 값을 가질 수 있습니다. 이 계수가 +1 인 경향이 있으면 X와 Y 사이에 직접적인 선형 상관이 있습니다. 대신 -1 인 경향이 있으면 선형 상관이 있지만 X가 증가하면 Y가 감소합니다. 마지막으로 0에 가까워 두 변수간에 상관 관계가 없습니다.
결정 계수는 첫 번째 값이 선형 적합을 기반으로 계산 된 경우에만 Pearson 계수의 제곱과 일치하지만이 등식은 다른 비선형 적합에는 유효하지 않습니다.
예
-예 1
한 그룹의 고등학생은 진자의 길이에 따라 진자의 기간에 대한 경험적 법칙을 결정하기 시작했습니다. 이 목표를 달성하기 위해 그들은 다음 값을 얻기 위해 다른 길이에 대한 진자 진동의 시간을 측정하는 일련의 측정을 수행합니다.
| 길이 (m) | 기간 (s) |
|---|---|
| 0.1 | 0.6 |
| 0.4 | 1.31 |
| 0.7 | 1.78 |
| 하나 | 1.93 |
| 1.3 | 2.19 |
| 1.6 | 2.66 |
| 1.9 | 2.77 |
| 삼 | 3.62 |
데이터의 산점도를 만들고 회귀를 통해 선형 적합을 수행해야합니다. 또한 회귀 방정식과 결정 계수를 보여줍니다.
해결책

그림 2. 실습용 솔루션 그래프 1. 출처 : F. Zapata.
상당히 높은 결정 계수 (95 %)가 관찰 될 수 있으므로 선형 적합이 최적이라고 생각할 수 있습니다. 그러나 점을 함께 보면 아래쪽으로 구부러지는 경향이 있습니다. 이 세부 사항은 선형 모델에서 고려되지 않습니다.
-예 2
예제 1의 동일한 데이터에 대해 데이터의 산점도를 만듭니다. 이 경우 예제 1과 달리 잠재적 함수를 사용하여 회귀 조정이 요청됩니다.

그림 3. 실습에 대한 솔루션 그래프 2. 출처 : F. Zapata.
또한 적합 함수와 결정 계수 R 2를 표시 합니다.
해결책
전위 함수는 f (x) = Ax B 형식입니다 . 여기서 A와 B는 최소 제곱 법에 의해 결정되는 상수입니다.
이전 그림은 99 %의 매우 높은 값을 가진 결정 계수뿐만 아니라 잠재적 기능과 그 매개 변수를 보여줍니다. 데이터는 추세선의 곡률을 따릅니다.
-예 3
예제 1과 예제 2의 동일한 데이터를 사용하여 2 차 다항식 피팅을 수행합니다. 그래프, 적합 다항식 및 해당 결정 계수 R 2를 표시 합니다.
해결책

그림 4. 실습에 대한 솔루션 그래프 3. 출처 : F. Zapata.
2 차 다항식 피팅을 사용하면 데이터 곡률에 잘 맞는 추세선을 볼 수 있습니다. 또한 결정 계수는 선형 적합보다 높고 잠재적 적합보다 낮습니다.
적합 비교
표시된 세 가지 적합도 중에서 결정 계수가 가장 높은 것이 잠재적 적합치입니다 (예 2).
잠재적 적합은 진자의 물리적 이론과 일치하며, 진자의주기는 길이의 제곱근에 비례하고 비례 상수는 2π / √g이며 여기서 g는 중력 가속도입니다.
이러한 유형의 잠재적 적합은 결정 계수가 가장 높을뿐만 아니라 지수 및 비례 상수가 물리적 모델과 일치합니다.
결론
-회귀 조정은 최소 제곱 법을 사용하여 데이터를 설명하는 것을 목표로하는 함수의 매개 변수를 결정합니다. 이 방법은 데이터의 Xi 값에 대한 데이터의 조정 Y 값과 Yi 값 사이의 2 차 차이의 합을 최소화하는 것으로 구성됩니다. 이것은 튜닝 기능의 매개 변수를 결정합니다.
-우리가 본 것처럼 가장 일반적인 조정 기능은 선이지만 조정은 다항식, 전위, 지수, 대수 등이 될 수도 있기 때문에 유일한 것은 아닙니다.
-어쨌든 결정 계수는 데이터 및 조정 유형에 따라 달라지며 적용된 조정의 장점을 나타냅니다.
-마지막으로 결정 계수는 주어진 X에 대한 조정의 Ŷ 값에 대한 데이터의 Y 값 사이의 총 변동성의 백분율을 나타냅니다.
참고 문헌
- González C. 일반 통계. 출처 : tarwi.lamolina.edu.pe
- IACS. Aragonese Institute of Health Sciences. 출처 : ics-aragon.com
- Salazar C. 및 Castillo S. 통계의 기본 원칙. (2018). 출처 : dspace.uce.edu.ec
- Superprof. 결정 계수. 출처 : superprof.es
- USAC. 기술 통계 매뉴얼. (2011). 출처 : statistics.ingenieria.usac.edu.gt.
- Wikipedia. 결정 계수. 출처 : es.wikipedia.com.
