jsy

GCP - Github 연동

(base) $ ssh-keygen -t rsa -b 4096 -C "깃허브 이메일" 엔터를 치면 아래와 같이 나온다. (base) $ cat .ssh/id_rsa.pub 위 코드를 입력하면 ssh키가 뜬다. 이걸 복사한다. 이제 깃허브에 로그인하여 Settings에 들어간다. SSH and GPG keys에서 아까 복사한 SSH키를 붙여넣기 한 후 추가한다. 이렇게 SSH키가 추가된다. GCP로 돌아와서 메타데이터로 들어간다. SSH키 추가를 누른다.(이미 저장된 SSH키가 있었던 경우 수정 눌러서 진행) 복사했던 SSH키를 붙여넣고 엔터로 저장한다. sudo apt-get update -y sudo apt-get upgrade -y sudo apt-get install git git --version..

Google Cloud 2024.04.18

GCP 인스턴스 SSH - pyspark 재설치

구글 클라우드 인스턴스 SSH에서 pyspark를 설치하고 jupyter notebook 실행 후 코드를 입력했는데 오류가 생겼다. pyspark와 python의 버전이 맞지 않아 오류가 발생하는 것이었다. python 버전을 변경하는 것보다 pyspark 버전을 바꾸는 것이 더 수월하므로 pyspark를 재설치한다. * 현재 pyspark의 버전은 3.1.1이고, 3.5.1로 재설치할 것이다. SSH에서 아래 코드를 입력하여 pyspark를 uninstall한다. /opt$ pip uninstall pyspark 이후 opt 내 파일을 제거한다. /opt$ sudo rm -rf * 명령어 ls를 통해 파일이 제거된 것을 확인할 수 있다. /opt$ sudo wget -q https://dlcdn.apa..

Error 2024.04.17

코호트 분석(Cohort Analysis)

코호트란? 특정 기간동안 공통된 특성이나 경험을 갖는 사용자 집단. 비즈니스에서는 같은 시기에 제품 및 서비스를 처음 구매한 집단, 비슷한 유형의 제품 및 서비스를 구매하는 고객들의 그룹을 의미한다. 코호트 분석이란? 특정 기간동안 고객이나 사용자 그룹을 기준에 따라 분류하고, 그 그룹의 행동 패턴을 시간에 따라 추적하여 분석하는 기법이다. 이를 통해 시간이 지남에 따라 제품, 서비스, 마케팅 전략 등이 특정 그룹에 어떻게 영향을 미치는지 알 수 있다. 마케팅에서 주로 사용되며 대표적인 툴은 Google Analytics가 있다. 코호트 분석이 중요한 이유 * 고객 유지율 : 고객 유지율, 이탈 패턴 분석 가능 * 제품 개선: 사용자 피드백과 사용 패턴을 바탕으로 제품 및 서비스 분석 가능 * 마케팅 :..

데이터 분석 2024.04.11

[머신러닝] 분류모델 평가지표

예측 양성 음성 실제 양성 TP FN 음성 FP TN * TP : True Positive(예측 Positive, 실제 값도 Positive) * TN : True Negative(예측 Negative, 실제 값도 Negative) * FP : False Positive(예측 Positive, 실제 값은 Negative) * FN : False Negative(예측 Negative, 실제 값은 Positive) * 정확도(Accuracy) - 예측 결과와 실제 값이 동일한 건수/전체 데이터 수 - 분류 모델을 평가하기에 가장 단순한 지표이나, 불균형한 클래스를 가진 데이터셋을 평가하기 어렵다는 단점 있음 - 0 ~ 1 사이의 값을 가짐. 1에 가까울수록 좋다. - 정확도 = (TN + TP) / (TN ..

Python 2024.02.20

Feature Enginering

데이터 가공 및 변환 : 모든 데이터를 숫자로 변경하는 것이 중요 - 데이터 가공 정의 : Raw 데이터를 적절하게 변환 - 데이터 전처리 정의 : Raw 데이터를 적절하게 처리 -> 둘의 차이가 무엇인가? 헷갈림 Feature Enginerring 용어를 사용함. 데이터 전처리 1차적으로 데이터 가공을 함. : 쓰지 않을 컬럼 삭제/행 추출(예: 조건문 부여, 이상치 제거)/파생 변수 Feature Engineering : 인코딩 변환(문자 컬럼을 숫자로 변경) Feature Scaling : 숫자 컬럼을 적절하게 표준화, 정규화) 주성분 분석(PCA)(숫자 컬럼을 적절하게 줄여주는 역할, 차원축소) 요인분석(Factor Analysis)(숫자 및 문자 컬럼을 적절하게 줄여주는 역할)

Python 2024.02.19

하이퍼 파라미터 - Grid Search, Random Search

* 하이퍼 파라미터 : 머신러닝 알고리즘을 구성하는 주요 구성 요소. 모델의 학습 과정이나 구조를 제어하는 매개변수로, 이 값을 조정해 알고리즘의 예측 성능을 개선할 수 있다. -> 학습 알고리즘들은 각각 다른 하이퍼 파라미터를 가지게 되는데, 모델은 주어진 하이퍼 파라미터를 가지고 데이터를 학습하게 된다.(ex. 의사 결정 트리의 최대 깊이, 랜덤 포레스트의 트리 개수 등) * Grid Search : 가능한 모든 하이퍼파라미터 조합을 시도하여 최적의 조합을 찾는 방법. 촘촘하게 파라미터를 입력하면서 테스트를 하는 방식 > 주어진 각 하이퍼파라미터에 대해 미리 정의된 값의 그리드(격자)를 만들고, 이 그리드의 모든 조합을 탐색함 > 각 조합에 대해 교차 검증을 사용하여 모델을 평가하고, 최적의 하이퍼파..

Python 2024.02.19

PyCaret Windows 10 아나콘다 설치

PyCaret 설치 1. Anaconda Prompt를 관리자로 실행한다. 2. 아래 명령어로 conda 환경이 잘 작동되는지 확인한다. conda --version >> 이렇게 버전이 뜨면 된다. 3. conda 가상환경을 만든다. conda create --name ml_pycaret python=3.10 >> 여기서 ml_pycaret은 폴더명임 4. conda 가상환경에 접속한다. conda activate ml_pycaret 5. 아래 명령어를 통해 pycaret을 설치한다. pip install pycaret 설치가 잘 되면 끝 Jupyter lab 실행 1. 폴더 경로로 접속한다. cd "C:\Users\jeong\Desktop\ml_pycaret" >> 형식 : cd "폴더 경로" 2. 아..

Python 2024.02.14

환경 변수 설정으로 API 키 숨기기

환경변수 이용한 API 크롤링을 할 때, 깃허브 등 온라인에 코드 업로드 시 API 인증키에 대한 보안을 유지하기 위해 환경 변수를 설정해야 한다. (이 외에 DB username, password 등 민감한 정보를 사용할 때 설정함) *** 그 전에 .env와 .streamlit을 이용해야 하므로 .gitignore에 해당 폴더 등을 사전에 미리 정의해서 업로드 한 후 진행한다.(깃허브에 커밋되지 않게 하는 것) >> 위와 같이 입력해준다.(없는 것만 작성하면 됨) git add .gitignore >> 이후 git commit & push하면 된다. 1. python-dotenv 이용 >> 프로젝트 폴더 내에 .env 파일을 생성한다. pip install python-dotenv >> python-..

Python 2024.02.01

git push 에러

파일을 수정하고 git push를 했는데 다음과 같은 에러 메시지가 떴다. >> git status로 확인해보면 push 없이 commit을 3번 했다는 것을 알 수 있음 (직역하면 브랜치가 main보다 3 커밋 앞서있다) git reset --soft HEAD~숫자 >> 쌓인 commits 횟수를 위 코드 숫자 부분에 넣으면 됨 >> 위의 경우에 3 commits이었으므로 3으로 써줌 reset 명령으로 git commit 명령을 되돌렸으므로 다시 진행하면 된다. * 참고 링크 - Git 도구: Reset 명확히 알고 가기, https://git-scm.com/book/ko/v2/Git-%EB%8F%84%EA%B5%AC-Reset-%EB%AA%85%ED%99%95%ED%9E%88-%EC%95%8C%EA..

Error 2024.01.30

[Streamlit] Input widgets(예시/연습)

* 참조 링크 Input widgets - Streamlit Docs Streamlit Docs Join the community Streamlit is more than just a way to make data apps, it's also a community of creators that share their apps and ideas and help each other make their work better. Please come join us on the community forum. We love to hear your questions docs.streamlit.io * 라이브러리 불러오기 # -*- coding:utf-8 -*- import streamlit as st import num..

Python 2024.01.29

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

jsy

전체 글 44

티스토리툴바