전체 글 44

GCP - Github 연동

(base) $ ssh-keygen -t rsa -b 4096 -C "깃허브 이메일" 엔터를 치면 아래와 같이 나온다. (base) $ cat .ssh/id_rsa.pub 위 코드를 입력하면 ssh키가 뜬다. 이걸 복사한다. 이제 깃허브에 로그인하여 Settings에 들어간다. SSH and GPG keys에서 아까 복사한 SSH키를 붙여넣기 한 후 추가한다. 이렇게 SSH키가 추가된다. GCP로 돌아와서 메타데이터로 들어간다. SSH키 추가를 누른다.(이미 저장된 SSH키가 있었던 경우 수정 눌러서 진행) 복사했던 SSH키를 붙여넣고 엔터로 저장한다. sudo apt-get update -y sudo apt-get upgrade -y sudo apt-get install git git --version..

Google Cloud 2024.04.18

GCP 인스턴스 SSH - pyspark 재설치

구글 클라우드 인스턴스 SSH에서 pyspark를 설치하고 jupyter notebook 실행 후 코드를 입력했는데 오류가 생겼다. pyspark와 python의 버전이 맞지 않아 오류가 발생하는 것이었다. python 버전을 변경하는 것보다 pyspark 버전을 바꾸는 것이 더 수월하므로 pyspark를 재설치한다. * 현재 pyspark의 버전은 3.1.1이고, 3.5.1로 재설치할 것이다. SSH에서 아래 코드를 입력하여 pyspark를 uninstall한다. /opt$ pip uninstall pyspark 이후 opt 내 파일을 제거한다. /opt$ sudo rm -rf * 명령어 ls를 통해 파일이 제거된 것을 확인할 수 있다. /opt$ sudo wget -q https://dlcdn.apa..

Error 2024.04.17

코호트 분석(Cohort Analysis)

코호트란? 특정 기간동안 공통된 특성이나 경험을 갖는 사용자 집단. 비즈니스에서는 같은 시기에 제품 및 서비스를 처음 구매한 집단, 비슷한 유형의 제품 및 서비스를 구매하는 고객들의 그룹을 의미한다. 코호트 분석이란? 특정 기간동안 고객이나 사용자 그룹을 기준에 따라 분류하고, 그 그룹의 행동 패턴을 시간에 따라 추적하여 분석하는 기법이다. 이를 통해 시간이 지남에 따라 제품, 서비스, 마케팅 전략 등이 특정 그룹에 어떻게 영향을 미치는지 알 수 있다. 마케팅에서 주로 사용되며 대표적인 툴은 Google Analytics가 있다. 코호트 분석이 중요한 이유 * 고객 유지율 : 고객 유지율, 이탈 패턴 분석 가능 * 제품 개선: 사용자 피드백과 사용 패턴을 바탕으로 제품 및 서비스 분석 가능 * 마케팅 :..

데이터 분석 2024.04.11

[머신러닝] 분류모델 평가지표

예측 양성 음성 실제 양성 TP FN 음성 FP TN * TP : True Positive(예측 Positive, 실제 값도 Positive) * TN : True Negative(예측 Negative, 실제 값도 Negative) * FP : False Positive(예측 Positive, 실제 값은 Negative) * FN : False Negative(예측 Negative, 실제 값은 Positive) * 정확도(Accuracy) - 예측 결과와 실제 값이 동일한 건수/전체 데이터 수 - 분류 모델을 평가하기에 가장 단순한 지표이나, 불균형한 클래스를 가진 데이터셋을 평가하기 어렵다는 단점 있음 - 0 ~ 1 사이의 값을 가짐. 1에 가까울수록 좋다. - 정확도 = (TN + TP) / (TN ..

Python 2024.02.20

Feature Enginering

데이터 가공 및 변환 : 모든 데이터를 숫자로 변경하는 것이 중요 - 데이터 가공 정의 : Raw 데이터를 적절하게 변환 - 데이터 전처리 정의 : Raw 데이터를 적절하게 처리 -> 둘의 차이가 무엇인가? 헷갈림 Feature Enginerring 용어를 사용함. 데이터 전처리 1차적으로 데이터 가공을 함. : 쓰지 않을 컬럼 삭제/행 추출(예: 조건문 부여, 이상치 제거)/파생 변수 Feature Engineering : 인코딩 변환(문자 컬럼을 숫자로 변경) Feature Scaling : 숫자 컬럼을 적절하게 표준화, 정규화) 주성분 분석(PCA)(숫자 컬럼을 적절하게 줄여주는 역할, 차원축소) 요인분석(Factor Analysis)(숫자 및 문자 컬럼을 적절하게 줄여주는 역할)

Python 2024.02.19

하이퍼 파라미터 - Grid Search, Random Search

* 하이퍼 파라미터 : 머신러닝 알고리즘을 구성하는 주요 구성 요소. 모델의 학습 과정이나 구조를 제어하는 매개변수로, 이 값을 조정해 알고리즘의 예측 성능을 개선할 수 있다. -> 학습 알고리즘들은 각각 다른 하이퍼 파라미터를 가지게 되는데, 모델은 주어진 하이퍼 파라미터를 가지고 데이터를 학습하게 된다.(ex. 의사 결정 트리의 최대 깊이, 랜덤 포레스트의 트리 개수 등) * Grid Search : 가능한 모든 하이퍼파라미터 조합을 시도하여 최적의 조합을 찾는 방법. 촘촘하게 파라미터를 입력하면서 테스트를 하는 방식 > 주어진 각 하이퍼파라미터에 대해 미리 정의된 값의 그리드(격자)를 만들고, 이 그리드의 모든 조합을 탐색함 > 각 조합에 대해 교차 검증을 사용하여 모델을 평가하고, 최적의 하이퍼파..

Python 2024.02.19

PyCaret Windows 10 아나콘다 설치

PyCaret 설치 1. Anaconda Prompt를 관리자로 실행한다. 2. 아래 명령어로 conda 환경이 잘 작동되는지 확인한다. conda --version >> 이렇게 버전이 뜨면 된다. 3. conda 가상환경을 만든다. conda create --name ml_pycaret python=3.10 >> 여기서 ml_pycaret은 폴더명임 4. conda 가상환경에 접속한다. conda activate ml_pycaret 5. 아래 명령어를 통해 pycaret을 설치한다. pip install pycaret 설치가 잘 되면 끝 Jupyter lab 실행 1. 폴더 경로로 접속한다. cd "C:\Users\jeong\Desktop\ml_pycaret" >> 형식 : cd "폴더 경로" 2. 아..

Python 2024.02.14

환경 변수 설정으로 API 키 숨기기

환경변수 이용한 API 크롤링을 할 때, 깃허브 등 온라인에 코드 업로드 시 API 인증키에 대한 보안을 유지하기 위해 환경 변수를 설정해야 한다. (이 외에 DB username, password 등 민감한 정보를 사용할 때 설정함) *** 그 전에 .env와 .streamlit을 이용해야 하므로 .gitignore에 해당 폴더 등을 사전에 미리 정의해서 업로드 한 후 진행한다.(깃허브에 커밋되지 않게 하는 것) >> 위와 같이 입력해준다.(없는 것만 작성하면 됨) git add .gitignore >> 이후 git commit & push하면 된다. 1. python-dotenv 이용 >> 프로젝트 폴더 내에 .env 파일을 생성한다. pip install python-dotenv >> python-..

Python 2024.02.01

git push 에러

파일을 수정하고 git push를 했는데 다음과 같은 에러 메시지가 떴다. >> git status로 확인해보면 push 없이 commit을 3번 했다는 것을 알 수 있음 (직역하면 브랜치가 main보다 3 커밋 앞서있다) git reset --soft HEAD~숫자 >> 쌓인 commits 횟수를 위 코드 숫자 부분에 넣으면 됨 >> 위의 경우에 3 commits이었으므로 3으로 써줌 reset 명령으로 git commit 명령을 되돌렸으므로 다시 진행하면 된다. * 참고 링크 - Git 도구: Reset 명확히 알고 가기, https://git-scm.com/book/ko/v2/Git-%EB%8F%84%EA%B5%AC-Reset-%EB%AA%85%ED%99%95%ED%9E%88-%EC%95%8C%EA..

Error 2024.01.30