[데이터정보처리입문] 2강 데이터 입력과 점검

티스토리 뷰

방통대/데이터정보처리입문

[데이터정보처리입문] 2강 데이터 입력과 점검

kr98gyeongim 2021. 5. 15. 19:08

1. 데이터란 무엇인가?

■ 데이터(data)

- 어떤 관심 있는 주제에 대해서 수집된 구조화된 정보(organized information)

- 일반적인 의미의 데이터는 수치, 문자, 그림 등의 표현양식과 관계없이 어떤 주제에 대한 구조화된 정보를 뜻함

■ 데이터의 특징

- 어떤 관심 있는 주제에 대하여 얻어진 것

- 분석에 알맞은 일정한 규칙과 형태로 수집되고 정리됨

- 분석과정을 통해서 유용한 정보(information)로 변환

- 조사나 실험을 통해서 수집되어 알맞은 형태로 변환

■ 통계적 데이터(statistical data)

- 수치적 계산과 통계적 분석에 알맞은 데이터

■ 데이터 분석의 목적

- 자연 및 사회현상에 대한 정확한 현상(집단의 특징) 파악

- 왜 그런 현상이 나타나게 되었는지(인과관계) 규명

- 경제, 사회 현상 속에 숨어 있는 법칙성 발견

　⇨ 미래상황 예측으로 합리적인 의사결정 도움

2. 측정의 수준과 데이터 종류

■ 데이터 수집 방법

- 통계 조사, 실험, 관찰(관측) 등을 통해서 조사단위나 실험단위로부터 정해진 측정 방법(측정도구, 질문지)으로 측정해 얻음

- 측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단위에 수치를 부여하는 작업

- ex) 표본으로 뽑힌 사람들의 몸무게, 지능 혹은 취업상태 등을 관측하여 수치로 나타내는 경우

　⇨ 측정된 전체 자료를 데이터(data)라고 함

■ 데이터 관련 기본용어

- 케이스(case, 레코드) : 데이터 세트에서 하나의 조사단위에 대한 정보의 집합체

- 변수(variable, 필드) : 각 조사단위로부터 측정된 개별적인 속성

■ 데이터의 행렬 형태 표현

- 데이터를 행렬 형태로 표시하면 이해하기 쉽다

- 각 행은 케이스(레코드), 각 열은 변수(필드)가 된다.

- 결측값 : 입력이 누락된 값이며, 보통 NA로 출력된다.

■ 측정의 수준

- 측정수준 종류 : 명목척도(nominal scale), 순서척도(ordinal scale), 구간척도(interval scale), 비율척도(ratio scale)

- 측정의 척도에 따라서 제공되는 정보의 수준과 데이터 분석에 이용할 수 있는 분석 방법이 달라진다.

■ 명목척도(= 명명척도 : Nominal scale)

- 측정대상의 속성을 단순히 분류하거나 확인할 목적으로 수치 부여

- 단순히 범주 구분이 목적이다. ⇨ 즉, 수치의 대소비교, 연산은 의미가 없다.

- ex) 남여구분, 운동선수 등번호, 거주지 등

■ 순서척도(= 서열척도 : Ordinal scale)

- 어떤 특성을 많고 적음에 따라 수치 부여

- 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고, 서열, 대소 관계의 구분만 의미가 있다.

- ex) 제품이나 서비스의 질을 묻는 질문

■ 구간척도(= 등간척도 : Interval scale)

- 측정대상을 속성에 따라 서열화는 물론 서열간의 간격이 같도록 수치 부여

- 연속형 값으로 측정값의 차이는 의미가 있지만, 비(比)는 의미가 없다.

- 절대 0을 정의할 수 없고, 임의로 지정된 0만 있다.

- ex) 섭씨온도, IQ, 적성검사 점수 등

■ 비율척도(Ratio scale)

- 구간척도와 유사하지만 측정값의 차이뿐만 아니라 비(比)도 의미가 있는 경우

- 절대 0을 정의할 수 있다.

- ex) 소득, 체중, 신장, 시간 등

■ 데이터의 구분

① 측정 수준에 따른 구분

- 질적변수(qualitative variable)

- 양적변수(quantitative variable) : 연속형 변수

② 측정되는 변수의 수에 따른 구분

- 일변량 데이터

- 다변량 데이터

3. 데이터의 입력

■ 부호화(coding, 코딩)

- 수집된 설문지의 응답결과나 관측결과 등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정

- 연속형 변수는 관측된 값이 숫자이기 때문에 그대로 입력이 가능하다.

- 여러 사람이 부호화 작업에 참여할 때는 부호화의 일관성을 유지하도록 부호화 지침서(code book)를 만들어 사용한다.

■ 데이터 코딩 설계

- 조사/실험을 통해서 얻은 데이터를 입력할 때 어떻게 입력을 해야 더 간편하고 효과적으로 분석할 수 있는지를 구상하는 것

- ex) 지방자치제도가 지역발전에 미친 영향을 살펴보기위해 표본 조사를 실시하는 사례

■ 부호화(coding, 코딩)

① 텍스트 파일

- ASCII 코드형식으로 저장된 파일이기때문에 아스키 파일이라고도 한다.

- 한글로 일정한 양식의 데이터를 입력후, 파일형식을 텍스트 파일로 저장한다.

- 자유형식(free format)과 고정형식(fixed format)으로 구분

* 자유형식 : 변수와 변수 구분은 공란(blank)으로 구분

* 고정형식 : 각 변수가 위치할 열(컬럼)을 정한 후 입력

② 스프레드시트나 데이터베이스 파일

- 엑셀 등에서 간편한 데이터 입력이 가능

- 열 : 변수, 행 : 케이스

③ SPSS에서 데이터 입력

- 직접 데이터를 입력하거나 텍스트 파일, 엑셀 파일 등을 읽을 수 있다.

④ SAS에서 데이터 입력

- SAS 편집기에 데이터를 직접 입력하거나 외부 입력 파일을 읽어온다.

⑤ S-link에서 데이터 입력

- 직접 S-Link 워크시트에 데이터를 입력하거나 외부의 텍스트 파일이나 엑셀 파일을 읽을 수 있다.

4. 데이터의 점검

■ 디버깅

- 입력오류나 또는 조사상의 실수로 인한 오류(bug)를 찾아 수정할 목적으로 데이터 세트를 검토하고 분석하는 것

■ 데이터 입력 오류 점검(데이터가 큰 경우)

- 각 변수의 입력 범위를 확인하는 방법

- 변수들간의 논리적 일관성 여부를 확인하는 방법

■ 각 변수의 입력 범위를 확인하는 방법

ex) 남자가 1, 여자가 2인 성별 변수를 선언

⇨ 변수 값이 1보다 작거나 2보다 큰 경우가 있다면

입력 과정에서 오류가 발생 or 응답자의 잘못된 응답 or 조사원의 실수

■ 변수들간의 논리적 일관성 여부를 확인하는 방법

ex) 환자의 성별과 암의 종류간에 교차표를 작성

⇨ 남자인데 자궁암의 값이 들어있는 경우

해당 케이스의 관측값을 확인하여 환자 성별이나 암 종류에 대한 입력오류 여부 확인

'방통대 > 데이터정보처리입문' 카테고리의 다른 글

[데이터정보처리입문] 1강. 데이터 분석과 컴퓨터 (0)	2021.05.15

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

IT / 개인공부 끄적끄적

티스토리 뷰