Python

[pandas] 데이터 불러오기

jsys 2024. 1. 6. 16:45

- 데이터셋 불러오기

import seaborn as sns

# 데이터셋 찾기 위해 이름 출력해보는 방법
sns.get_dataset_names()


# ['anagrams',
#  'anscombe',
#  'attention',
#  'brain_networks',
#  'car_crashes',
#  'diamonds',
#  'dots',
#  'dowjones',
#  'exercise',
#  'flights',
#  'fmri',
#  'geyser',
#  'glue',
#  'healthexp',
#  'iris',
#  'mpg',
#  'penguins',
#  'planets',
#  'seaice',
#  'taxis',
#  'tips',
#  'titanic']

 

load_dataset()을 통해 원하는 데이터셋을 불러오면 된다.

tips = sns.load_dataset('tips')
tips

 

 

 

 

 

- 파일 입출력

 

* jupyter lab에서 불러오기

 

 

불러올 파일의 경로를 복사하여 read_csv('')안에 붙여넣기 하면 된다.

 

 

 

 

편하게 같은 폴더 안의 파일을 불러오려면 변수로 공통 경로를 지정하면 된다.

import pandas as pd

DATA_PATH = 'playground-series-s4e1/'
train = pd.read_csv(DATA_PATH + 'train.csv')
test = pd.read_csv(DATA_PATH + 'test.csv')
submission = pd.read_csv(DATA_PATH + 'sample_submission.csv')

 

 

 

불러온 파일에서 필요한 것을 추출하여 내보내기를 할 수 있다.

result = train.loc[:, ['id', 'Age']]
result.to_csv("result.csv", index=False)  # index=False 시, index 번호는 열로 추출 안함

# 실행하면 프로젝트 폴더 내로 내보내기가 된다.(playground 폴더가 아니라!)

 

원하는 폴더에 내보내기 하고 싶다면 폴더 경로를 더해주면 된다.

DATA_PATH + "result.csv"

# playground 폴더(사진 캡쳐에 있는 폴더)에 내보내기 하고싶다면 경로 더해주면 된다.

 

 

 

 

* Google Colab과 Google Drive 연동해서 불러오기

(위의 파일과 같은 파일을 Google Drive에 저장한 후 불러올 것임!)

 

from google.colab import drive
drive.mount('/content/drive')


# Mounted at /content/drive

 

위 코드를 입력하면 인증 절차를 거쳐야 함(처음에)

import pandas as pd

DATA_PATH = '/content/drive/MyDrive/Colab Notebooks/멀티캠퍼스34/playground-series-s4e1/'

# 폴더 경로를 그냥 복사붙여넣기 하면 /content/drive/MyDrive/Colab Notebooks/멀티캠퍼스34/playground-series-s4e1 이렇게 나오는데, 끝에 /를 붙여주어야 한다.

train = pd.read_csv(DATA_PATH + 'train.csv')
train

 

이렇게 하면 Google Colab에 Google Drive 데이터를 불러올 수 있다.

 

 

 

 

* pandas 홈페이지에서 바로 데이터 가져오기

 

 

위 화면에서 To raw data를 누른다.

 

 

그럼 위와 같은 사이트가 나오는데, 주소 링크를 복사한다.

 

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
titanic

 

위 코드처럼 read_csv()에 링크를 붙여넣기하면 데이터를 불러올 수 있다.

'Python' 카테고리의 다른 글

[pandas] 데이터 통합하기  (0) 2024.01.08
[matplotlib] 데이터 시각화  (1) 2024.01.06
pandas 간단 정리  (1) 2024.01.06
Numpy 배열 생성 정리  (0) 2024.01.06
반복문  (0) 2024.01.06