티스토리 뷰
목차
- 데이터정보와 컴퓨터
- 데이터분석 개요
- 데이터분석 소프트웨어 소개
- 데이터분석 예
1.1. 데이터 정보와 컴퓨터
1. 지식정보화
■ 정보화 사회 : 빅데이터(Big Data), 딥러닝(Deep Learning), AI(Artufucauk Intelligency)시대
- 정보가 중심이 되어 사회, 경제가 움직이는 사회
- 정보의 수집과 분석 및 정확한 판단 없이는 살아갈 수 없는 사회
- 정보가 급격하게 증대, 성장, 보급되는 사회
■ 정보화 사회에서는 효율적인 정보의 수집, 수집된 정보의 가치판단, 정보 활용 능력 등이 필수적으로 요구되기때문에
이러한 의미에서 지금은 지식정보화 사회라고 한다.
■ 지식정보화 사회에서 데이터를 효율적으로 처리하고 분석하기 위해서는 컴퓨터의 활용 및 데이터 분석 능력이 필수다.
2. 지식정보화 사회에서 필수적인 요구사항
■ 컴퓨터의 활용방법을 알고 있어야 한다.
■ 인터넷을 효율적으로 활용할 수 있어야 한다.
■ 정보를 제대로 이해하고, 문제를 파악하고 판단하기 위한 통계적인(= 논리적인) 사고가 요구된다.
■ 데이터 분석에 대한 기본 개념과 방법론들을 숙지
■ 데이터로부터 유용한 정보를 추출하고, 합리적인 의사결정을 하기 위해서는 데이터분석 소프트웨어를 잘 활용해야한다.
1.2. 데이터분석 개요
1. 데이터 분석 절차
■ 문제의 정의 -> 조사, 실험의 계획 -> 데이터의 수집 -> 데이터의 정리, 분석 -> 분석결과의 평가
■ 문제의 정의
- 일반적으로 연구의 시작은 대개 간단하고 모호한 질문으로부터 시작된다.
- 이것을 자세하고 정확한 질문으로 구체화 시켜 연구의 목적으로 하는 것이 문제의 정의이다.
- 연구 대상이 되는 모집단이 어떠한 것이며, 무엇이 불확실한 상황이고,
어떠한 의사결정들이 내려질 수 있는지에 대한 자세한 검토가 이루어져야 한다.
■ 조사, 실험의 계획
- 연구의 목적이 명확하게 정의가 되면 달성할 수 있는 조사 또는 실험을 계획해야한다.
- 구체적으로 연구대상이 되는 모집단을 모두 조사할 것인지 아니면 표본만을 조사할 것인지 결정.
- 표본을 조사하려고 한다면 어떻게 표본을 선택할 것이며,
표본의 크기는 어느 정도로 하며, 각 표본에서는 무슨 자료를 얻을 것인지를 결정해야한다.
■ 데이터의 수집
- 구체적인 조사, 실험이 계획되면 이에 따라 데이터를 수집
- 어느 경우에는 자료가 이미 수집되어 있거나, 인터넷 또는 문헌에서 쉽게 구할 수 있으나,
이 때는 이 자료들이 과연 연구목적에 적절하고 정확한 것인지를 검토해야한다.
- 직접 자료를 수집하는 일은 대개 시간과 경비가 많이 들고 또 오류도 많이 발생할 수 있는 매우 복잡하고 힘든 일이다.
- 어느 경우에는 계획한 대로 자료를 수집하기가 불가능한 경우도 있고, 수집된 자료가 연구목적에 적절하지 않은 경우도 있다.
- 이러한 문제점들을 줄이기 위해 예비자료를 먼저 수집하여 자료수집 계획을 수정 또는 보완을 하기도 한다.
■ 데이터의 정리, 분석
- 적절한 데이터를 수집한 후에는 도표나 그림을 이용하여 자료를 정리한다.
- 또한 주어진 문제의 해결에 적합한 분석방법을 이용하여 자료를 분석한다.
- 데이터분석 시스템의 활용 : 엑셀, R, Python, SAS, SPSS, Minitab 등
- 통계적 방법 : 기술통계, 탐색적 자료분석, 범주형자료분석, 두 모집단 비교, 회귀분석, 실험계획, 다변량분석 등
■ 분석 결과의 평가
- 분석된 결과를 이용하여 연구목적에서 제기된 질문에 대한 결론을 내린다.
- 어떤 경우에는 부분적인 답만 결론을 내릴 수 있다.
- 제기되지 않았던 질문에 관한 결론도 얻을 수 있다.
- 결론에 따른 여러 가지 새로운 연구에 대한 제안도 할 수 있다.
1.3. 데이터 분석 소프트웨어
1. SPSS(www.spss.co.kr)
- GUI(Graphic User Interface) 환경 하에서 통계분석 및 자료처리가 이루어진다.
- 분석절차에 맞게 다양한 대화상자가 제공되므로 쉽게 분석처리가 가능
- 스프레드시트 형태의 데이터 입력으로 일반 사용자에게 친숙하다.
- 메뉴방식 및 프로그램 방식을 모두 이용하여 통계분석 절차를 제공한다.
- 메뉴방식을 이용한 통계그래픽스 기능이 뛰어나다.
2. SAS(www.sas.co.kr)
- 자료의 처리 기능이 뛰어남
- 데이터베이스, 데이터 웨어하우징(data warehousing) 등의 기능이 탁월함
- 다양한 통계분석 절차
- 데이터마이닝 기능이 뛰어남
- 빅데이터 솔루션 기능
- 프로그램 방식이 기본임
3. R(www.r-project.org)
- free(무료)
- 기능이 매우 뛰어남
- 프로그램 처리방식
- 자료처리, 분석 및 그래픽스 분야에 탁월한 기능
4. Python(www.anaconda.com)
- free(무료)
- 객체지향언어
- 프로그램 문법이 쉬움
- 머신러닝, 딥러닝 분야에 탁월한 기능
1.4. 데이터 분석 예
1. R을 이용한 데이터 분석 예
# ex12라는 변수에 ~/Desktop/university/data/ex12.csv 파일을 읽어 데이터를 대입
> ex12 <- read.csv("~/Desktop/university/data/ex12.csv")
> ex12 = read.csv("~/Desktop/university/data/ex12.csv")
# 데이터를 잘 읽었는지 확인하는 메소드 head
>head(ex12)
X...Id math physics
1 1 66 70
2 2 64 68
3 3 48 46
4 4 46 48
5 5 78 84
6 6 60 64
# 산점도 그리는 메소드 plot(x축변수, y축변수, pch = Pointer Charcter번호지정, color = "색깔")
> plot(ex12$math, ex12$physics, pch = 19, col = "BLUE")
# 산점도의 제목을 선언하는 메소드 title()
> title("\n Scatter Plot of (math, physics)\n")
# 매번 변수로 선언한 ex12$를 붙이기 귀찮다면 attach() 메소드를 사용하면 된다.
> attach(ex12)
# 이렇게 하면 plot(math, physics, pch = 19, col = "BLUE")로 더 편하게 사용이 가능함
# 상관계수 구하는 메소드 cor()
# 위에서 attach를 사용했기 때문에 ex12$를 붙이지 않아도 정상적으로 동작한다.
> cor(math, physics)
[1] 0.9918056
# 만약 attach를 사용하지 않았다면 아래와 같이 사용
> cor(ex12$math, ex12$physics)
[1] 0.9918056
# 상관계수가 0인지 검정하는 메소드 cor.test() 사용
> cor.test(math, physics) # 이것도 attach를 사용하지 않았다면 ex12$math, ex12$physics로 사용
Pearson's product-moment correlation
data: ex12$math and ex12$physics
t = 21.958, df = 8, p-value = 1.953e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9644404 0.9981317
sample estimates:
cor
0.9918056
'방통대 > 데이터정보처리입문' 카테고리의 다른 글
[데이터정보처리입문] 2강 데이터 입력과 점검 (0) | 2021.05.15 |
---|
- Total
- Today
- Yesterday
- TrimEnd
- 시간차이
- NLog
- 참조전달
- C#
- commit
- USER_SYS_PRIVS
- REVOKE
- pl/sql
- 동기통신
- BEGIN절
- in/out/ref 공통점
- PL/SQL 실행문
- in/out/ref 예제
- VB.Net
- 유틸리티에러
- 후나빙
- grant
- DECLARE절
- in/out/ref
- DBA_SYS_PRIVS
- PL/SQL 예외처리문
- EXCEPTION절
- vba
- 에러
- Oracle
- rollback
- 초기화파라미터파일
- in/out/ref 차이점
- 유틸리티
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |