결정 계수 : 공식, 계산, 해석, 예 - DUDAS

결정 계수는 두 변수 데이터 세트의 착용감 회귀 직선을 따라 지점 (X, Y)의 비율을 나타내는 0과 1 사이의 값이다.

적합도라고도하며 R ² 로 표시됩니다 . 이를 계산하기 위해 회귀 모델에 의해 추정 된 데이터 Ŷi의 분산과 데이터의 각 Xi에 해당하는 데이터 Yi의 분산 사이의 몫을 취합니다.

R ² = Sŷ / Sy

그림 1. 네 쌍의 데이터에 대한 상관 계수. 출처 : F. Zapata.

데이터의 100 %가 회귀 함수의 선에 있으면 결정 계수는 1이됩니다.

반대로, 데이터 세트와 특정 적합 함수에 대해 계수 R ² 가 0.5 인 것으로 판명되면 적합도는 50 % 만족 스럽거나 좋다고 말할 수 있습니다.

마찬가지로 회귀 모델 이 0.5보다 낮은 R ² 값을 산출 하면 선택한 조정 함수가 데이터에 만족스럽게 적응하지 못하므로 다른 조정 함수를 검색해야합니다.

공분산 또는 상관 계수가 제로 경향이 때, 데이터의 변수 X 및 Y는 무관하며, 따라서 R ² 제로 또한 경향 것이다.

결정 계수를 계산하는 방법은 무엇입니까?

이전 섹션에서 결정 계수는 분산 사이의 몫을 찾아 계산한다고 말했습니다.

-변수 Y의 회귀 함수로 추정

-N 데이터 쌍의 각 변수 Xi에 해당하는 변수 Yi의 것.

수학적으로 설명하면 다음과 같습니다.

R ² = Sŷ / Sy

이 공식에서 R ² 는 회귀 모델에서 설명하는 분산 비율을 나타냅니다. 또는 R ² 는 이전 공식과 완전히 동일한 다음 공식을 사용하여 계산할 수 있습니다 .

R ² = 1-(Sε / Sy)

여기서 Sε은 잔차 εi = Ŷi-Yi의 분산을 나타내고 Sy는 데이터의 Yi 값 집합의 분산입니다. Ŷi를 결정하기 위해 회귀 함수가 적용됩니다. 이는 Ŷi = f (Xi)임을 확인하는 것을 의미합니다.

i가 1에서 N까지 인 데이터 세트 Yi의 분산은 다음과 같이 계산됩니다.

Sy =

그런 다음 Sŷ 또는 Sε에 대해 유사한 방식으로 진행하십시오.

예시 사례

결정 계수 계산 방법에 대한 세부 정보를 표시하기 위해 다음 네 쌍의 데이터 세트를 사용합니다.

(X, Y) : {(1, 1); (2. 3); (3, 6) 및 (4, 7)}.

최소 제곱 법을 사용하여 얻은이 데이터 세트에 대해 선형 회귀 피팅이 제안됩니다.

에프 (x) = 2.1 x-1

이 조정 기능을 적용하여 토크를 얻습니다.

(X, Ŷ) : {(1, 1.1); (2, 3.2); (3, 5.3) 및 (4, 7.4)}.

그런 다음 X와 Y에 대한 산술 평균을 계산합니다.

= (1 + 2 + 3 + 4) / 4 = 2.5

= (1 + 3 + 6 + 7) / 4 = 4.25

분산 Sy

Sy = / (4-1) =

= = 7,583

분산 Sŷ

Sŷ = / (4-1) =

= = 7.35

결정 계수 R ²

R ² = Sŷ / Sy = 7.35 / 7.58 = 0.97

해석

이전 세그먼트에서 고려한 사례의 결정 계수는 0.98로 밝혀졌습니다. 즉, 기능을 통한 선형 조정 :

에프 (x) = 2.1x-1

최소 제곱 법을 사용하여 얻은 데이터를 설명하는 데있어 98 % 신뢰할 수 있습니다.

결정 계수 외에도 선형 상관 계수 또는 피어슨 계수라고도합니다. r로 표시되는이 계수는 다음 관계로 계산됩니다.

r = Sxy / (Sx Sy)

여기서 분자는 변수 X와 Y 사이의 공분산을 나타내는 반면 분모는 변수 X에 대한 표준 편차와 변수 Y에 대한 표준 편차의 곱입니다.

Pearson의 계수는 -1과 +1 사이의 값을 가질 수 있습니다. 이 계수가 +1 인 경향이 있으면 X와 Y 사이에 직접적인 선형 상관이 있습니다. 대신 -1 인 경향이 있으면 선형 상관이 있지만 X가 증가하면 Y가 감소합니다. 마지막으로 0에 가까워 두 변수간에 상관 관계가 없습니다.

결정 계수는 첫 번째 값이 선형 적합을 기반으로 계산 된 경우에만 Pearson 계수의 제곱과 일치하지만이 등식은 다른 비선형 적합에는 유효하지 않습니다.

예

-예 1

한 그룹의 고등학생은 진자의 길이에 따라 진자의 기간에 대한 경험적 법칙을 결정하기 시작했습니다. 이 목표를 달성하기 위해 그들은 다음 값을 얻기 위해 다른 길이에 대한 진자 진동의 시간을 측정하는 일련의 측정을 수행합니다.

길이 (m)	기간 (s)
0.1	0.6
0.4	1.31
0.7	1.78
하나	1.93
1.3	2.19
1.6	2.66
1.9	2.77
삼	3.62

데이터의 산점도를 만들고 회귀를 통해 선형 적합을 수행해야합니다. 또한 회귀 방정식과 결정 계수를 보여줍니다.

해결책

그림 2. 실습용 솔루션 그래프 1. 출처 : F. Zapata.

상당히 높은 결정 계수 (95 %)가 관찰 될 수 있으므로 선형 적합이 최적이라고 생각할 수 있습니다. 그러나 점을 함께 보면 아래쪽으로 구부러지는 경향이 있습니다. 이 세부 사항은 선형 모델에서 고려되지 않습니다.

-예 2

예제 1의 동일한 데이터에 대해 데이터의 산점도를 만듭니다. 이 경우 예제 1과 달리 잠재적 함수를 사용하여 회귀 조정이 요청됩니다.

그림 3. 실습에 대한 솔루션 그래프 2. 출처 : F. Zapata.

또한 적합 함수와 결정 계수 R ^{2를 표시} 합니다.

해결책

전위 함수는 f (x) = Ax ^{B 형식입니다} . 여기서 A와 B는 최소 제곱 법에 의해 결정되는 상수입니다.

이전 그림은 99 %의 매우 높은 값을 가진 결정 계수뿐만 아니라 잠재적 기능과 그 매개 변수를 보여줍니다. 데이터는 추세선의 곡률을 따릅니다.

-예 3

예제 1과 예제 2의 동일한 데이터를 사용하여 2 차 다항식 피팅을 수행합니다. 그래프, 적합 다항식 및 해당 결정 계수 R ^{2를 표시} 합니다.

해결책

그림 4. 실습에 대한 솔루션 그래프 3. 출처 : F. Zapata.

2 차 다항식 피팅을 사용하면 데이터 곡률에 잘 맞는 추세선을 볼 수 있습니다. 또한 결정 계수는 선형 적합보다 높고 잠재적 적합보다 낮습니다.

적합 비교

표시된 세 가지 적합도 중에서 결정 계수가 가장 높은 것이 잠재적 적합치입니다 (예 2).

잠재적 적합은 진자의 물리적 이론과 일치하며, 진자의주기는 길이의 제곱근에 비례하고 비례 상수는 2π / √g이며 여기서 g는 중력 가속도입니다.

이러한 유형의 잠재적 적합은 결정 계수가 가장 높을뿐만 아니라 지수 및 비례 상수가 물리적 모델과 일치합니다.

결론

-회귀 조정은 최소 제곱 법을 사용하여 데이터를 설명하는 것을 목표로하는 함수의 매개 변수를 결정합니다. 이 방법은 데이터의 Xi 값에 대한 데이터의 조정 Y 값과 Yi 값 사이의 2 차 차이의 합을 최소화하는 것으로 구성됩니다. 이것은 튜닝 기능의 매개 변수를 결정합니다.

-우리가 본 것처럼 가장 일반적인 조정 기능은 선이지만 조정은 다항식, 전위, 지수, 대수 등이 될 수도 있기 때문에 유일한 것은 아닙니다.

-어쨌든 결정 계수는 데이터 및 조정 유형에 따라 달라지며 적용된 조정의 장점을 나타냅니다.

-마지막으로 결정 계수는 주어진 X에 대한 조정의 Ŷ 값에 대한 데이터의 Y 값 사이의 총 변동성의 백분율을 나타냅니다.

참고 문헌

González C. 일반 통계. 출처 : tarwi.lamolina.edu.pe
IACS. Aragonese Institute of Health Sciences. 출처 : ics-aragon.com
Salazar C. 및 Castillo S. 통계의 기본 원칙. (2018). 출처 : dspace.uce.edu.ec
Superprof. 결정 계수. 출처 : superprof.es
USAC. 기술 통계 매뉴얼. (2011). 출처 : statistics.ingenieria.usac.edu.gt.
Wikipedia. 결정 계수. 출처 : es.wikipedia.com.

결정 계수 : 공식, 계산, 해석, 예 - DUDAS - 2026