티스토리 뷰

목차

  1. 데이터정보와 컴퓨터
  2. 데이터분석 개요
  3. 데이터분석 소프트웨어 소개
  4. 데이터분석 예

1.1. 데이터 정보와 컴퓨터

1. 지식정보화

정보화 사회 : 빅데이터(Big Data), 딥러닝(Deep Learning), AI(Artufucauk Intelligency)시대

- 정보가 중심이 되어 사회, 경제가 움직이는 사회

- 정보의 수집과 분석 및 정확한 판단 없이는 살아갈 수 없는 사회

- 정보가 급격하게 증대, 성장, 보급되는 사회

 

■ 정보화 사회에서는 효율적인 정보의 수집, 수집된 정보의 가치판단, 정보 활용 능력 등이 필수적으로 요구되기때문에 

    이러한 의미에서 지금은 지식정보화 사회라고 한다.

 

■ 지식정보화 사회에서 데이터를 효율적으로 처리하고 분석하기 위해서는 컴퓨터의 활용데이터 분석 능력이 필수다.

 

2. 지식정보화 사회에서 필수적인 요구사항

컴퓨터의 활용방법을 알고 있어야 한다.

인터넷을 효율적으로 활용할 수 있어야 한다.

■ 정보를 제대로 이해하고, 문제를 파악하고 판단하기 위한 통계적인(= 논리적인) 사고가 요구된다.

데이터 분석에 대한 기본 개념과 방법론들을 숙지

■ 데이터로부터 유용한 정보를 추출하고, 합리적인 의사결정을 하기 위해서는 데이터분석 소프트웨어를 잘 활용해야한다.


1.2. 데이터분석 개요

1. 데이터 분석 절차

■ 문제의 정의 -> 조사, 실험의 계획 -> 데이터의 수집 -> 데이터의 정리, 분석 -> 분석결과의 평가

 

■ 문제의 정의

- 일반적으로 연구의 시작은 대개 간단하고 모호한 질문으로부터 시작된다.

- 이것을 자세하고 정확한 질문으로 구체화 시켜 연구의 목적으로 하는 것이 문제의 정의이다.

- 연구 대상이 되는 모집단이 어떠한 것이며, 무엇이 불확실한 상황이고,

   어떠한 의사결정들이 내려질 수 있는지에 대한 자세한 검토가 이루어져야 한다.

 

■ 조사, 실험의 계획

- 연구의 목적이 명확하게 정의가 되면 달성할 수 있는 조사 또는 실험을 계획해야한다.

- 구체적으로 연구대상이 되는 모집단을 모두 조사할 것인지 아니면 표본만을 조사할 것인지 결정.

- 표본을 조사하려고 한다면 어떻게 표본을 선택할 것이며,

  표본의 크기는 어느 정도로 하며, 각 표본에서는 무슨 자료를 얻을 것인지를 결정해야한다.

 

■ 데이터의 수집

- 구체적인 조사, 실험이 계획되면 이에 따라 데이터를 수집

- 어느 경우에는 자료가 이미 수집되어 있거나, 인터넷 또는 문헌에서 쉽게 구할 수 있으나,

  이 때는 이 자료들이 과연 연구목적에 적절하고 정확한 것인지를 검토해야한다.

- 직접 자료를 수집하는 일은 대개 시간과 경비가 많이 들고 또 오류도 많이 발생할 수 있는 매우 복잡하고 힘든 일이다.

- 어느 경우에는 계획한 대로 자료를 수집하기가 불가능한 경우도 있고, 수집된 자료가 연구목적에 적절하지 않은 경우도 있다.

- 이러한 문제점들을 줄이기 위해 예비자료를 먼저 수집하여 자료수집 계획을 수정 또는 보완을 하기도 한다.

 

■ 데이터의 정리, 분석

- 적절한 데이터를 수집한 후에는 도표나 그림을 이용하여 자료를 정리한다.

- 또한 주어진 문제의 해결에 적합한 분석방법을 이용하여 자료를 분석한다.

- 데이터분석 시스템의 활용 : 엑셀, R, Python, SAS, SPSS, Minitab 등

- 통계적 방법 : 기술통계, 탐색적 자료분석, 범주형자료분석, 두 모집단 비교, 회귀분석, 실험계획, 다변량분석 등

 

■ 분석 결과의 평가

- 분석된 결과를 이용하여 연구목적에서 제기된 질문에 대한 결론을 내린다.

- 어떤 경우에는 부분적인 답만 결론을 내릴 수 있다.

- 제기되지 않았던 질문에 관한 결론도 얻을 수 있다.

- 결론에 따른 여러 가지 새로운 연구에 대한 제안도 할 수 있다.


1.3. 데이터 분석 소프트웨어

1. SPSS(www.spss.co.kr)

-  GUI(Graphic User Interface) 환경 하에서 통계분석 및 자료처리가 이루어진다.

- 분석절차에 맞게 다양한 대화상자가 제공되므로 쉽게 분석처리가 가능

- 스프레드시트 형태의 데이터 입력으로 일반 사용자에게 친숙하다.

- 메뉴방식 및 프로그램 방식을 모두 이용하여 통계분석 절차를 제공한다.

- 메뉴방식을 이용한 통계그래픽스 기능이 뛰어나다.

 

2. SAS(www.sas.co.kr)

-  자료의 처리 기능이 뛰어남

- 데이터베이스, 데이터 웨어하우징(data warehousing) 등의 기능이 탁월함

- 다양한 통계분석 절차

- 데이터마이닝 기능이 뛰어남

- 빅데이터 솔루션 기능

- 프로그램 방식이 기본임

 

3. R(www.r-project.org)

- free(무료)

- 기능이 매우 뛰어남

- 프로그램 처리방식

- 자료처리, 분석 및 그래픽스 분야에 탁월한 기능

 

4. Python(www.anaconda.com)
- free(무료)

- 객체지향언어

- 프로그램 문법이 쉬움

- 머신러닝, 딥러닝 분야에 탁월한 기능

 


1.4. 데이터 분석 예

1. R을 이용한 데이터 분석 예

ex12.csv

# ex12라는 변수에 ~/Desktop/university/data/ex12.csv 파일을 읽어 데이터를 대입
> ex12 <- read.csv("~/Desktop/university/data/ex12.csv")
> ex12 = read.csv("~/Desktop/university/data/ex12.csv")

# 데이터를 잘 읽었는지 확인하는 메소드 head
>head(ex12)
  X...Id math physics
1      1   66      70
2      2   64      68
3      3   48      46
4      4   46      48
5      5   78      84
6      6   60      64

# 산점도 그리는 메소드 plot(x축변수, y축변수, pch = Pointer Charcter번호지정, color = "색깔")
> plot(ex12$math, ex12$physics, pch = 19, col = "BLUE")

# 산점도의 제목을 선언하는 메소드 title()
> title("\n Scatter Plot of (math, physics)\n")

# 매번 변수로 선언한 ex12$를 붙이기 귀찮다면 attach() 메소드를 사용하면 된다.
> attach(ex12)
# 이렇게 하면 plot(math, physics, pch = 19, col = "BLUE")로 더 편하게 사용이 가능함

# 상관계수 구하는 메소드 cor()
# 위에서 attach를 사용했기 때문에 ex12$를 붙이지 않아도 정상적으로 동작한다.
> cor(math, physics)
[1] 0.9918056

# 만약 attach를 사용하지 않았다면 아래와 같이 사용
> cor(ex12$math, ex12$physics)
[1] 0.9918056

# 상관계수가 0인지 검정하는 메소드 cor.test() 사용
> cor.test(math, physics) # 이것도 attach를 사용하지 않았다면 ex12$math, ex12$physics로 사용
	Pearson's product-moment correlation

data:  ex12$math and ex12$physics
t = 21.958, df = 8, p-value = 1.953e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.9644404 0.9981317
sample estimates:
      cor 
0.9918056 

산점도 그리기 결과

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함