본문 바로가기
공부/데이터베이스

1. 데이터베이스 기본 개념 / 03 데이터 과학 시대의 데이터

by 라이티아 2025. 9. 2.

1. 형태에 따른 데이터 분류

구조화된 형태에 따른 데이터 분류

 

미리 정해진 구조가 있을시 = 정형 데이터

엑셀 스프레드시트, 관계 데이터베이스의 테이블

 

내용안에 구조에 대한 설명이 같이 있는경우 = 반정형 데이터

HTML, XML, JSON 문서, 센서 데이터

 

정해진 구조가 없을시 = 비정형 데이터

소셜 데이터의 텍스트, 영상, 이미지, 음성

 

 

 

정형 데이터 Structured Data

구조화된 데이터, 미리 정해진 구조에 따라 저장된 데이터임

스프레드 시트, RDB의 정형 데이터 등

 

반정형 데이터 Semi-Structured Data

구조에 따라 저장된 데이터지만 정형 데이터와 달리 데이터 내용 안에 구조에 대한 설명이 함께 존재함

구조를 파악하는 파싱 과정이 필요함

보통 파일 형태로 저장됨

 

비정형 데이터 Unstructured Data

정해진 구조가 없이 저장된 데이터

소셜 데이터의 텍스트, 영상, 이미지 등 멀티 미디어 데이터가 예시임

증가속도는 예측 불허함

 

2. 특성이 따른 데이터 분류

각각 데이터 형태들은 내부를 들여다 보면 다양한 특성의 데이터가 모여 있음

 

일반적으로 데이터는 특성에 따라 범주형 데이터, 수치형 데이터로 분류함

통계적 관점에서 데이터 특성에 따라 보다 적합한 분석 방법을 선택하기 위한 데이터 분석 분야에서 사용한다

 

특성에 따른 데이터 분류

범주형 데이터 / 수치형 데이터

 

범주형 데이터

명목형 데이터 / 순서형 데이터

 

수치형 데이터

이산형 데이터 / 연속형 데이터

 

범주형 데이터 Categorical Data

범주로 구분할 수 있는 값, 즉 종류를 나타내는 값을 가진 데이터를 의미한다

 

명목형 데이터와 순서형 데이터로 다시 세분화 된다

명목형 데이터 = 서열이 없는 값을 가지는 데이터

순서형 데이터 = 서열이 있는 값을 가지는 데이터

 

수치형 데이터 Numerical Data, AKA 양적 데이터 = Quanitiative Data

양적 측면에서 크기 비교와 산술적인 연산이 가능한 숫자 값을 가진 데이터를 의미함

 

이산형 데이터 / 연속형 데이터로 세분화 됨

이산형 데이터 Discrete Data

개수를 셀 수 있는 고객수, 판매량, 합격자 수와 같이 이어지지 않고 띄엄띄엄 단절된 숫자 값을 가지는 데이터를 의미함

보통 소수점이 없는 정수 타빙의 값으로 표현된다

 

연속형 데이터 Continuous Data

연속적으로 이어진 숫자 값을 가지는 데이터를 의미한다

보통 소수점이 있는 실수 타입의 값으로 표현된다