분류 전체보기 44

통계검정별 사용함수 정리(+예시)

- 정규성 검정 * 예시 어느 회사의 직원들의 월급 데이터가 있다. 이 데이터가 정규 분포를 따르는지 확인하고 싶다. 주어진 월급 데이터를 사용하여 정규성 검정을 수행하고 결과를 해석한다. salaries = [3500, 4000, 4000, 4500, 5000, 5000, 5500, 6000, 6500, 7000] # 월급 from scipy import stats t_statistic, p_value = stats.shapiro(salaries) t_statistic, p_value if p_value >= 0.05: print("귀무가설 : 데이터는 정규성을 만족합니다") else: print("대립가설 : 데이터는 정규성을 만족하지 않습니다") # out: 귀무가설 : 데이터는 정규성을 만족합니다..

Python 2024.01.12

가설검정 (2표본 문제에 관한 가설검정)

- 2표본 문제 : 두 모집단에 관한 검정 - 2표본 대푯값의 차이에 대한 검정 정규분포를 가정할 수 있음 정규분포를 가정할 수 없음 대응표본 대응비교 t 검정 윌콕슨의 부호순위검정 독립표본 독립비교 t 검정 만·위트니의 U 검정 >> 대응표본 : 데이터에 대응이 있다. / 두 데이터에서 서로 대응하는 동일한 개체에 대해 각각 다른 조건으로 측정한 것 >> 독립표본 : 데이터에 대응이 없다. / 두 데이터에서 개체가 다른 데이터로 되어 있는 독립표본 1) 대응비교 t 검정 대응하는 데이터가 있고, 데이터 차이에 정규분포를 가정할 수 있는 경우의 평균값 차이에 대한 검정 - 예시 * A 학생은 친구 20명에게 1주일간 근력 운동을 하게 함(intervention, 개입) * 운동 전후에 집중력을 측정하는 ..

Python 2024.01.11

가설검정 (t-검정/가설검정 오류/양측검정과 단측검정)

- 개념 * 통계적 가설검정 : 모집단의 모수에 관하여 두 가지 가설을 세우고 표본으로부터 계산되는 통계량을 이용하여 어느 가설이 옳은지 판단하는 통계적인 방법 * T 검정 : 모수 검정 방법 중 하나로, 단일 집단의 검정 및 집단 간 비교 분석을 목적으로 한다. * 가설 : 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론 귀무가설(Null Hypothesis) 기존과 비교하여 차이, 효과가 없음을 나타내는 가설 대립가설(Alternative Hypothesis) 주장하는 가설. 차이, 효과가 있음을 입증하고자 하는 가설 >> 결론 : 귀무가설을 기각한다 or 귀무가설을 기각하지 못한다(= 귀무가설 채택) >> T-검정에서의 가설 설정 귀무가설(H0) 모평균과 표본평균은 같다 대립가설(H1) ..

Python 2024.01.11

[plotly] 사용법 간단 정리

* plotly란? : 파이썬으로 시각화를 할 수 있는 그래픽 라이브러리 * plotly 공식문서 : https://plotly.com/python-api-reference/generated/plotly.graph_objects.Figure.html plotly.graph_objects.Figure — 5.18.0 documentation ’carpet’, ‘choropleth’, ‘choroplethmapbox’, ‘cone’, ‘contour’, ‘contourcarpet’, ‘densitymapbox’, ‘funnel’, ‘funnelarea’, ‘heatmap’, ‘heatmapgl’, ‘histogram’, ‘histogram2d’, ‘histogram2dcontour’, ‘ic plotly.c..

Python 2024.01.09

[pandas] 데이터 둘러보기, 다뤄보기

- 결측치(=값이 중간에 비어있음)가 존재하는지 확인 + 데이터 분석을 할 때 결측치가 있으면 수식 작동이 안된다. > 확인하기 데이터를 불러온다. import pandas as pd df = pd.read_csv("data/Lemonade2016.csv") 이후 info()를 통해 결측치가 있는지 확인할 수 있다. df.info() # out : >> Non-Null Count로 Null 값의 개수를 확인(Non-Null : Null이 아니다) >> 위 예시에서는 전체 값이 32개이므로 31개의 non-null을 가진다면 결측치가 1개 있다는 뜻 결측치는 .dropna()로 삭제할 수 있다. 1) 행 기준으로 결측치 제거 : .dropna() 2) 열 기준으로 결측치 제거 : .dropna(axis=1..

Python 2024.01.09

[seaborn] 데이터 시각화(+matplotlib)

- seaborn : 데이터 시각화를 위한 Python 라이브러리 중 하나 * seaborn 튜토리얼 링크 : https://seaborn.pydata.org/tutorial.html User guide and tutorial — seaborn 0.13.1 documentation seaborn.pydata.org - 필요한 라이브러리 불러오기 import matplotlib.pyplot as plt import seaborn as sns import pandas as pd import numpy as np - savefig() : 이미지 파일 추가 tips = sns.load_dataset("tips") fig, ax = plt.subplots() sns.scatterplot(x = 'total_bil..

Python 2024.01.08

[pandas] 엑셀 파일 불러오기, 내보내기

- openpyxl 라이브러리가 없다면 설치한다. !pip install openpyxl - 다음과 같은 형식으로 엑셀 파일을 불러온다. import pandas as pd df = pd.read_excel('data/학생시험성적.xlsx') df >> pd.read_excel('') 안에 불러오고 싶은 엑셀 파일의 링크를 복사하여 붙여넣으면 된다. # out : - pandas를 이용해 엑셀 파일에서 특정 시트의 내용을 읽어올 수 있다. df = pd.read_excel("data/학생시험성적.xlsx", sheet_name = '2차시험', index_col = '학생') df # out : sheet_name 옵션에는 시트 번호를 입력하거나 시트 이름을 입력하면 되고, index_col 옵션에는 번..

Python 2024.01.08

[pandas] 데이터 통합하기

- 세로 방향(index 증가 방향)으로 통합하기 우선 통합할 두 DataFrame 데이터를 생성한다. import pandas as pd import numpy as np df1 = pd.DataFrame({ 'Class1' : [95,92,98,100], 'Class2' : [91,93,97,99] }) df1 # out : df2 = pd.DataFrame({ 'Class1' : [87,89], 'Class2' : [85,90] }) df2 # out : 이후 'append()'를 이용했는데 오류가 났다. https://pandas.pydata.org/pandas-docs/version/1.4/reference/api/pandas.DataFrame.append.html pandas.DataFrame..

Python 2024.01.08

[matplotlib] 데이터 시각화

- matplotlib: 파이썬에서 데이터를 효과적으로 시각화하기 위해 만든 라이브러리 import matplotlib.pyplot as plt # matplotlib의 서브모듈 불러오기 - matplotlib에서 2차원 선 그래프를 그리는 형식 plt.plot(x,y,fmt) # x, y : 각각 x축과 y축 좌표의 값을 의미 # fmt : format string, 다양한 형식으로 그래프를 그릴 수 있는 옵션 * subplot() plt.subplot(m, n, p) # m * n 행렬로 이뤄진 하위 그래프 중에서 p번 위치에 그래프가 그려지도록 지정 가능 * 예시 # plt.plot(data1) 책에는 이렇게 나와있는데, 잘못된 것이고 아래(객체지향 방식)처럼 해야한다. fig, ax = plt.s..

Python 2024.01.06

[pandas] 문자열 메서드 정리

1. str.lower() titanic["Name"].str.lower() # str.lower() : 문자열 열의 모든 문자를 소문자로 변환 2. str.split() 3. str.get() # 쉼표 이전의 값 추출하기 titanic["Name"].str.split(",") # str.split() : 문자열을 특정 구분자 기준으로 나누는 문자열 메서드 # 쉼표를 기준으로 나눔 titanic["Surname"] = titanic["Name"].str.split(",").str.get(0) # str.get(0) : 각 문자열에서 첫 번째 문자 가져오기 titanic["Surname"] 4. str.contains() titanic["Name"].str.contains("Countess") # str...

카테고리 없음 2024.01.06