티스토리 뷰
목차
- 데이터의 개념
- 측정의 수준과 데이터 종류
- 데이터의 입력과정
- 입력된 데이터에 대한 점검
1. 데이터란 무엇인가?
■ 데이터(data)
- 어떤 관심 있는 주제에 대해서 수집된 구조화된 정보(organized information)
- 일반적인 의미의 데이터는 수치, 문자, 그림 등의 표현양식과 관계없이 어떤 주제에 대한 구조화된 정보를 뜻함
■ 데이터의 특징
- 어떤 관심 있는 주제에 대하여 얻어진 것
- 분석에 알맞은 일정한 규칙과 형태로 수집되고 정리됨
- 분석과정을 통해서 유용한 정보(information)로 변환
- 조사나 실험을 통해서 수집되어 알맞은 형태로 변환
■ 통계적 데이터(statistical data)
- 수치적 계산과 통계적 분석에 알맞은 데이터
■ 데이터 분석의 목적
- 자연 및 사회현상에 대한 정확한 현상(집단의 특징) 파악
- 왜 그런 현상이 나타나게 되었는지(인과관계) 규명
- 경제, 사회 현상 속에 숨어 있는 법칙성 발견
⇨ 미래상황 예측으로 합리적인 의사결정 도움
2. 측정의 수준과 데이터 종류
■ 데이터 수집 방법
- 통계 조사, 실험, 관찰(관측) 등을 통해서 조사단위나 실험단위로부터 정해진 측정 방법(측정도구, 질문지)으로 측정해 얻음
- 측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단위에 수치를 부여하는 작업
- ex) 표본으로 뽑힌 사람들의 몸무게, 지능 혹은 취업상태 등을 관측하여 수치로 나타내는 경우
⇨ 측정된 전체 자료를 데이터(data)라고 함
■ 데이터 관련 기본용어
- 케이스(case, 레코드) : 데이터 세트에서 하나의 조사단위에 대한 정보의 집합체
- 변수(variable, 필드) : 각 조사단위로부터 측정된 개별적인 속성
■ 데이터의 행렬 형태 표현
- 데이터를 행렬 형태로 표시하면 이해하기 쉽다
- 각 행은 케이스(레코드), 각 열은 변수(필드)가 된다.
- 결측값 : 입력이 누락된 값이며, 보통 NA로 출력된다.
■ 측정의 수준
- 측정수준 종류 : 명목척도(nominal scale), 순서척도(ordinal scale), 구간척도(interval scale), 비율척도(ratio scale)
- 측정의 척도에 따라서 제공되는 정보의 수준과 데이터 분석에 이용할 수 있는 분석 방법이 달라진다.
■ 명목척도(= 명명척도 : Nominal scale)
- 측정대상의 속성을 단순히 분류하거나 확인할 목적으로 수치 부여
- 단순히 범주 구분이 목적이다. ⇨ 즉, 수치의 대소비교, 연산은 의미가 없다.
- ex) 남여구분, 운동선수 등번호, 거주지 등
■ 순서척도(= 서열척도 : Ordinal scale)
- 어떤 특성을 많고 적음에 따라 수치 부여
- 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고, 서열, 대소 관계의 구분만 의미가 있다.
- ex) 제품이나 서비스의 질을 묻는 질문
■ 구간척도(= 등간척도 : Interval scale)
- 측정대상을 속성에 따라 서열화는 물론 서열간의 간격이 같도록 수치 부여
- 연속형 값으로 측정값의 차이는 의미가 있지만, 비(比)는 의미가 없다.
- 절대 0을 정의할 수 없고, 임의로 지정된 0만 있다.
- ex) 섭씨온도, IQ, 적성검사 점수 등
■ 비율척도(Ratio scale)
- 구간척도와 유사하지만 측정값의 차이뿐만 아니라 비(比)도 의미가 있는 경우
- 절대 0을 정의할 수 있다.
- ex) 소득, 체중, 신장, 시간 등
■ 데이터의 구분
① 측정 수준에 따른 구분
- 질적변수(qualitative variable)
- 양적변수(quantitative variable) : 연속형 변수
② 측정되는 변수의 수에 따른 구분
- 일변량 데이터
- 다변량 데이터
3. 데이터의 입력
■ 부호화(coding, 코딩)
- 수집된 설문지의 응답결과나 관측결과 등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정
- 연속형 변수는 관측된 값이 숫자이기 때문에 그대로 입력이 가능하다.
- 여러 사람이 부호화 작업에 참여할 때는 부호화의 일관성을 유지하도록 부호화 지침서(code book)를 만들어 사용한다.
■ 데이터 코딩 설계
- 조사/실험을 통해서 얻은 데이터를 입력할 때 어떻게 입력을 해야 더 간편하고 효과적으로 분석할 수 있는지를 구상하는 것
- ex) 지방자치제도가 지역발전에 미친 영향을 살펴보기위해 표본 조사를 실시하는 사례
■ 부호화(coding, 코딩)
① 텍스트 파일
- ASCII 코드형식으로 저장된 파일이기때문에 아스키 파일이라고도 한다.
- 한글로 일정한 양식의 데이터를 입력후, 파일형식을 텍스트 파일로 저장한다.
- 자유형식(free format)과 고정형식(fixed format)으로 구분
* 자유형식 : 변수와 변수 구분은 공란(blank)으로 구분
* 고정형식 : 각 변수가 위치할 열(컬럼)을 정한 후 입력
② 스프레드시트나 데이터베이스 파일
- 엑셀 등에서 간편한 데이터 입력이 가능
- 열 : 변수, 행 : 케이스
③ SPSS에서 데이터 입력
- 직접 데이터를 입력하거나 텍스트 파일, 엑셀 파일 등을 읽을 수 있다.
④ SAS에서 데이터 입력
- SAS 편집기에 데이터를 직접 입력하거나 외부 입력 파일을 읽어온다.
⑤ S-link에서 데이터 입력
- 직접 S-Link 워크시트에 데이터를 입력하거나 외부의 텍스트 파일이나 엑셀 파일을 읽을 수 있다.
4. 데이터의 점검
■ 디버깅
- 입력오류나 또는 조사상의 실수로 인한 오류(bug)를 찾아 수정할 목적으로 데이터 세트를 검토하고 분석하는 것
■ 데이터 입력 오류 점검(데이터가 큰 경우)
- 각 변수의 입력 범위를 확인하는 방법
- 변수들간의 논리적 일관성 여부를 확인하는 방법
■ 각 변수의 입력 범위를 확인하는 방법
ex) 남자가 1, 여자가 2인 성별 변수를 선언
⇨ 변수 값이 1보다 작거나 2보다 큰 경우가 있다면
입력 과정에서 오류가 발생 or 응답자의 잘못된 응답 or 조사원의 실수
■ 변수들간의 논리적 일관성 여부를 확인하는 방법
ex) 환자의 성별과 암의 종류간에 교차표를 작성
⇨ 남자인데 자궁암의 값이 들어있는 경우
해당 케이스의 관측값을 확인하여 환자 성별이나 암 종류에 대한 입력오류 여부 확인
'방통대 > 데이터정보처리입문' 카테고리의 다른 글
[데이터정보처리입문] 1강. 데이터 분석과 컴퓨터 (0) | 2021.05.15 |
---|
- Total
- Today
- Yesterday
- 동기통신
- 에러
- C#
- pl/sql
- in/out/ref 예제
- 시간차이
- VB.Net
- REVOKE
- Oracle
- DECLARE절
- vba
- grant
- PL/SQL 실행문
- TrimEnd
- 유틸리티
- in/out/ref 공통점
- rollback
- BEGIN절
- EXCEPTION절
- in/out/ref
- commit
- USER_SYS_PRIVS
- 초기화파라미터파일
- NLog
- in/out/ref 차이점
- PL/SQL 예외처리문
- 유틸리티에러
- 후나빙
- 참조전달
- DBA_SYS_PRIVS
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |