범주 형 변수는 어떤 객체 개인, 엔티티 상태 또는 프로 시저에 비 수치 또는 질적 특성 또는 속성을 지정하기 위해 사용되는 통계이다. 필요에 따라 모든 종류의 범주 형 변수를 정의 할 수 있습니다.
범주 형 변수의 예로는 피부색, 성별, 혈액형, 결혼 여부, 재료 유형, 지불 방법 또는 은행 계좌 유형이 있으며 매일 많이 사용됩니다.

그림 1 : 색상은 범주 형 변수입니다. 출처 : pixabay
위의 변수는 변수이지만 가능한 값은 질적, 즉 품질 또는 특성이며 수치 측정이 아닙니다. 예를 들어, 성별 변수에 대해 가능한 값은 남성, 엠 브라입니다.
이 변수가 컴퓨터 프로그램에 저장되면 텍스트 변수로 선언 할 수 있으며 허용되는 유일한 값은 이미 이름이 남성, 여성입니다.
그러나 Male이 1로 지정되고 Female에 값이 2가 지정되면 동일한 변수 성별을 선언하고 정수로 저장할 수 있습니다. 이러한 이유로 범주 형 변수를 열거 형이라고도합니다.
범주 형 변수의 주된 특징은 연속 형 및 이산 형 변수와 같은 다른 변수와 달리 산술을 수행 할 수 없다는 것입니다. 그러나 나중에 볼 수 있듯이 통계를 사용할 수 있습니다.
예
범주 형 변수 및 가능한 값의 다음 예를 참고하십시오.
-Group_Sanguíneo, 값 범위 : A, B, AB, O
-Civil_Status, 범주 값 : 미혼 (A), 기혼 (B), 사별 (C), 이혼 (D).
-Tipo_de_Material, 카테고리 또는 값 : 1 = 목재, 2 = 금속, 3 = 플라스틱
-결제 형태, 증권 또는 카테고리 : (1) 현금, (2) 차변, (3) 이체, (4) 신용
앞의 예에서 숫자는 완전히 임의적 인 방식으로 각 범주와 연관되었습니다.
그런 다음이 임의의 숫자 연관성은 이산 양적 변수와 동일하게 만들지 만 산술 연산을이 숫자로 수행 할 수 없기 때문에 그렇지 않다고 생각할 수 있습니다.
아이디어를 설명하기 위해 Form_of_Payment 변수에서 합계 연산이 의미가 없습니다.
(1) 현금 + (2) 차변은 절대 같지 않습니다 (3) 이체
범주 형 변수의 분류
순위는 암시 적 계층 구조가 있는지 여부 또는 가능한 결과 수가 두 개 이상인지 여부에 따라 결정됩니다.
가능한 결과가 하나 뿐인 범주 형 변수는 변수가 아니라 범주 형 상수입니다.
공칭 카테고리
숫자로 표시 할 수 없거나 순서가 없을 때. 예를 들어, Type_of_Material 변수에는 명목 값 (Wood, Metal, Plastic)이 있으며 각 응답 또는 범주에 임의의 숫자가 할당 된 경우에도 계층 구조 나 순서가 없습니다.
서수 범주 형
변수 : Academic_performance
공칭 값 : 높음, 중간, 낮음
이 변수의 값은 숫자가 아니지만 암시 적 순서 또는 계층 구조를 갖습니다.
이진 범주
다음과 같은 두 가지 가능한 답이있는 명목 변수입니다.
-변수 : 응답
-공칭 값 : True, False
응답 변수에는 암시 적 계층 구조가없고 가능한 결과가 두 개뿐이므로 이진 범주 형 변수입니다.
일부 저자는이 유형을 이진 변수라고 부르며 가능한 범주가 세 개 이상인 범주 형 변수에 속하는 것으로 간주하지 않습니다.
범주 형 변수가있는 통계
통계는 숫자 또는 양적 변수가 아니더라도 범주 형 변수로 수행 할 수 있습니다. 예를 들어, 범주 형 변수의 추세 또는 가장 가능성있는 값을 알기 위해 모드가 사용됩니다.
이 경우 모드는 범주 형 변수의 가장 많이 반복되는 결과 또는 값입니다. 범주 형 변수의 경우 평균이나 중앙값을 계산할 수 없습니다.
범주 형 변수로 산술을 할 수 없기 때문에 평균을 계산할 수 없습니다. 양적 또는 범주 형 변수에는 순서 나 계층이 없으므로 중앙값도 마찬가지입니다. 따라서 중앙값을 결정할 수 없습니다.
범주 형 변수의 그래픽 표현
특정 범주 형 변수가 주어지면 해당 변수의 결과가 반복되는 빈도 또는 횟수를 찾을 수 있습니다. 각 결과에 대해 이것이 수행되면 각 범주 또는 결과에 대한 빈도 그래프를 만들 수 있습니다.
다음은 범주 형 변수를 그래픽으로 표현하는 방법에 대한 몇 가지 예입니다.
해결 된 운동
연습 1
한 회사에 170 명의 직원 데이터 기록이 있습니다. 이 레코드에있는 변수 중 하나는 Estado_Civil입니다. 이 변수에는 네 가지 범주 또는 가능한 값이 있습니다.
미혼 (A), 기혼 (B), 사별 (C), 이혼 (D).
숫자가 아닌 변수이지만 특정 범주에있는 총 레코드 수를 알 수 있으며 다음 그림과 같이 막대 그래프 형식으로 표시 될 수 있습니다.

그림 2. 범주 형 변수의 결과 표현. 출처 : 자체 제작
예 2
신발 가게는 판매를 추적합니다. 기록을 관리하는 변수 중에는 각 모델의 신발 색상이 있습니다. 변수 :
Color_Shoe_Model_AW3
범주 유형이며 5 개의 범주 또는 가능한 값이 있습니다. 이 변수의 각 범주에 대해 판매 횟수가 합산되고 비율이 설정됩니다. 결과는 다음 그림의 그래프에 표시됩니다.

그림 3. 범주 형 변수 Color _Shoe. 이 변수에서 모드는 흰색입니다. 출처 : 자체 제작.
유행을 타는 AW3 신발 모델 중 가장 많이 팔리는 모델은 화이트, 그 다음은 블랙이라고 할 수있다.
70 %의 확률로이 모델이 판매되는 다음 신발은 흰색 또는 검은 색이라고 말할 수 있습니다.
이 정보는 새로 주문할 때 상점에 유용 할 수 있으며, 재고 초과로 인해 가장 적게 판매 된 색상에 할인을 적용 할 수도 있습니다.
예제 3
특정 혈액 기증자 집단의 경우 특정 혈액형에 속한 사람들의 수를 나타내려고합니다. 결과를 시각화하는 그래픽 방식은 표 하단에있는 픽토그램을 사용하는 것입니다.
첫 번째 열은 group_sanguíneo 변수와 가능한 결과 또는 범주를 나타냅니다. 두 번째 열에는 각 범주의 사람 수를 아이콘 또는 그림 형식으로 표시합니다. 이 예에서는 빨간색 물방울이 아이콘으로 사용되며 각각 10 명을 나타냅니다.

그림 4. 그림. 출처 : 자체 제작
참고 문헌
- 칸 아카데미. 범주 형 데이터 분석. 출처 : khanacademy.org
- 우주 공식. 질적 변수. 출처 : univesoformulas.com
- Minitab. 범주 형, 이산 형 및 연속 형 변수입니다. 출처 : support.minitab.com
- Excel 튜토리얼. 변수의 특성화. 출처 : help.xlslat.com.
- Wikipedia. 통계 변수. wikipedia.com에서 복구
- Wikipedia. 범주 형 변수. wikipedia.com에서 복구
- Wikipedia. 범주 형 변수. wikipedia.com에서 복구
