-
728x90
1. 해결하려는 문제가 무엇인지 명확히 하기
목표 정의를 명확히 숫자로 생각하기
2. 데이터는 어떻게 생겼는가를 파악하기
특성을 파악하기, 수치, 현업용어, 전문용어, 실무자 면답이 필요하다. 더 깊이 이해야 달 활용할 수 있는데 대부분의 데이터는 모두 문제를 가지고 있다. 그것을 정제해서 활용하기 위해서는 이게 필요하다. 이 과정을 전처리 과정이라고 한다.
3. 이해후에 그래프를 활용해가
시각화를 하기전 깊은 이해 없이 활용하면 문제가 된다.
데이터 처리 순서
목적정의-> 전처리-> 알고리즘 선택 및 분석-> 검증
빅데이터와 머신 러닝
빅데이터: 기존과는 다른 양이 매우 많은 특정한 특징이 있는 데이터들을 말함
활용하는 알고리즘 방법론 중 하나가 머신러닝인데 위 과정중 알고리즘 선택/분석에서 활용하는 방법중 하나인 것이다.
3강,4강
모집단을 조사할 수 없는 경우가 매우 많아서 어려울 경우 샘플만으로 통계를 해야 한다.
샘플링의 방법
방식에따라
정답은 없지만 통상적으로 무선표집, 랜덤샘플링
얼마나 뽑을 것인가가 표집수라고 한다.
편향
얼마나 치우쳤느냐
불편향
편향의 반대 상태, 편향되지 않은 원 목표 데이터 상태
랜덤 샘플링
편향이 안되게 하는 방법으로는 조건없이 샘플을 뽑아야 한다.
통계 용어와 기호
모평균(u,뮤): 모집단의 평균
모표준편차(시그마):
이 두가지를 합쳐서 모수치라고 부름
표본평균(엑스바): 표본의 평균
표본표준편차: 표본의 표준편차
이 두가지를 표본수치라고 부른다.
분포
데이터의 대략적인 형태
정규분포
평균을 중심으로 좌우 대칭인 종모양 분포
이와 반대되는 이론은 편포라고 한다.
정규분포로 가정하고 문제 해결하는 이유
1. 정규분포가 아니라면 문제해결이 어려워진다.
그래서 일단 가정을 하고 활용하는 경우가 많다.
2. 중심극한정리
샘플이 충분히 많아지면 표본의 평균은 모집단 평균을 따른다르고 정규분포화 된다는이론을 추종하기 때문이다.
데이터에서 먼저 봐야 하는 것
집중경향치
데이터의 대표값
평균: 수치적 중간값
중아치:순서가 중간값
최빈치:빈도가 가장 많은 값
편차: 각 데이터 수치의 평균에서 거리
분산: 편차의 제곱의 평균값,데이터의 거리를 구할 수 있다.
표준편차: 분산의 루트
데이터 분석을 할 때 문제가 되는 것을리 있다. 유달리 높거나 낮아서 데이터 분석결과를 다르게 만들어 주는 것이다.
이것을 아웃라이어라고 한다.
아웃라이어가 있는지 판단하기 위해서는 평균, 중앙치등을 통해 판단할 수 있다.
아웃라이어로 인한 문제를 없애기 위해서는
아웃라이어를 버리는 것이 가장 좋은 방법이다.
결측치
각 칼럼별로 데이터 개수가 다르면 비어있기 때문에 결측치가 생긴다. 그러므로 이 경우에는 칼럼중 빈 값이 있는 행은 버린다.
편향
원하는 데이터가 치우치게 표본을 뽑은 경우