데이터분석 27

불균형 데이터 처리 기법-SMOTE를 알아보자.

데이터의 균형을 맞추는 다양한 방법   오늘은 SMOTE와 관련 불균형 데이터 처리 기법들에 대해 알아보자.오늘의 배움불균형 데이터셋의 이해와 문제점SMOTE 및 관련 샘플링 기법의 종류와 특징파이썬을 활용한 다양한 샘플링 기법 실제 적용 방법1. 불균형 데이터 처리 기법정의: 한쪽 클래스의 데이터가 다른 클래스에 비해 현저히 적은 불균형 데이터셋을 처리하는 다양한 방법론이다.핵심 개념 한 줄 설명: 데이터의 분포를 조정하여 각 클래스 간의 균형을 맞추는 기법들이다.특징:오버샘플링, 언더샘플링, 앙상블 기법 등 다양한 접근 방식 존재각 기법별로 고유한 장단점과 적용 상황이 있음데이터의 특성에 따라 적절한 기법 선택 필요필요성:편향된 학습 방지소수 클래스에 대한 예측 성능 향상모델의 일반화 능력 개선[핵심..

Develop/ML·DL 2025.02.12

추천 시스템에 대해 알아보자.

당신의 취향을 분석하는 AI   오늘은 추천 시스템에 대해 알아보자.오늘의 배움추천 시스템의 기본 개념과 종류각 추천 시스템의 작동 원리실제 서비스에서의 적용 사례1. 추천 시스템정의: 사용자의 선호도와 행동 패턴을 분석하여 관심을 가질만한 항목을 제안하는 시스템핵심 개념 한 줄 설명: 사용자 데이터를 기반으로 개인화된 추천을 제공하는 AI 시스템 특징:개인화된 서비스 제공사용자 경험 향상서비스 참여도 증가[핵심 공식]- 코사인 유사도 = A·B / (||A|| ||B||) - 피어슨 상관계수 = cov(X,Y) / (σx σy) - 유클리드 거리 = √Σ(xi - yi)² 📚 실제 예시로 이해하기[일상적인 예시] 음악 추천 시스템:콘텐츠 기반: "방탄소년단을 좋아하니 비슷한 K-pop 그룹을 추천합니..

Develop/ML·DL 2025.02.04

비지도 학습을 알아보자.

데이터를 자동으로 그룹화하는 군집 분석   오늘은 머신러닝읜 군집 분석에 대해 알아보자.  오늘의 배움비지도 학습의 군집 개념과 알고리즘가우시안 혼합 모델의 이해군집화 성능 평가와 DBSCAN 1. 군집 (Clustering) 정의: 비슷한 특성을 가진 데이터들을 자동으로 그룹화하는 비지도 학습 방법핵심 개념 한 줄 설명: 데이터들 간의 유사성을 측정하여 비슷한 것들끼리 묶어주는 방법군집의 목적데이터의 그룹화데이터 분포 이해노이즈 제거새로운 데이터의 레이블 생성군집과 분류의 차이군집: 레이블이 없는 데이터를 그룹화한다. (비지도 학습)분류: 이미 정의된 레이블에 데이터를 매핑한다. (지도 학습) 📚 실제 예시로 이해하기[일상적인 예시]- 옷장 정리하기: 색상별, 종류별로 옷을 분류하는 것 - 도서관 책..

Develop/ML·DL 2025.02.02

[SK캠프 9기] 2번째_무빙_250115~250117 (벌써, 미니프로젝트)

[프로젝트 간략 소개]- 프로젝트 명: 무빙- 프로젝트 기간: 25.01.27 ~ 25.02.03- 문제 정의:영화 흥행 예측 및 투자 전략 수립 지원 필요- 역할 및 기여:기획, 데이터 수집·분석, LGBMClassifier 모델 개발 및 성능 개선 주도, Notion/Discord기반 팀 소통 및 이슈 관리 담당, GIt 기반 코드 공유·리뷰 품질 관리, 전체 팀 리드- 성과:약 83% 정확도 달성, 데이터 기반 투자 전략 가이드라인 및 의사결정 효율성 높임, 코드 관리 프로세스 강화- 깃허브: https://github.com/yujitaeng/eda_2teamhttps://github.com/yujitaeng/ml_2team [무빙] - Sprint 1 회고록기간: 2025.01.15 - 202..

SKN_09_Project 2025.01.21

[SK캠프] 33일차 TIL 250120 (스택)

Intro프로젝트 진행 중 마주한 문제 상황과 이를 해결한 과정을 상세히 기록하고, 향후 동일한 문제가 발생할 경우 신속하게 해결할 수 있도록 트러블슈팅을 체계적으로 정리하려고 합니다.과정은 크게 문제 상황 발생 / 원인 추론 / 해결 방안 / 결과 확인 순으로 트러블 슈팅을 정리문제 상황 발생Q)최소 스택직접 스택의 메소드를 구현해보자 하나의 클래스에 push,pop,top,get_min을 구현해보자.ms = MinStack()ms.push(5)ms.push(3)ms.push(7)print(ms.get_min()) # 3ms.pop()print(ms.get_min()) # 3ms.pop()print(ms.get_min()) # 5 A) 문제풀이 -> 오답class MinStack: def _..

분류와 로지스틱 회귀를 알아보자.

비슷하지만, 점점 어려워지고 많아진다.   오늘은 분류와 로지스틱 회귀를 알아보자.오늘의 배움분류의 기본 개념 이해하기주요 분류 알고리즘 파악하기로지스틱 회귀의 원리 및 적용 이해하기모델 성능 측정 방법 익히기1. 분류분류(Classification)는 주어진 데이터를 특정 클래스(또는 레이블)로 나누는 머신러닝의 대표적인 지도 학습 문제 유형이다.분류의 특징출력 값이 연속적인 숫자가 아니라, 유한한 클래스 값으로 제한된다.학습 데이터에 각 데이터 포인트의 정답 레이블이 포함되어 있어야 한다.분류 문제의 유형이진 분류(Binary Classification)데이터가 두 개의 클래스 중 하나에 속한다.예: 이메일 분류(스팸/비스팸), 암 진단(양성/음성) 등다중 분류(Multi-class Classific..

Develop/ML·DL 2025.01.20

[SK캠프] 5주차 WIL 250113_250119 (낙담하지 말고 문제를 풀어라)

250113 ~ 250119 SK캠프 9기 5주 차 회고 일지 내용금주 주요 성과- 문제 풀이 단계 서술- 데이터분석 문제 풀이보완해야할 점머신러닝, 문제 풀이KPT Keepdf[df['Survived] == 1].sum()​스터디와 실습문제, 팀플, 그날의 복습 등 한번에 많은것이 겹쳐져서 할일이 과포화된 한 주였다.뭘부터 해야할지도 모를 정도였는데, 하고나니 많은 것을 알게되고, 나만의 학습법이 세워지는 것 같았다. 선생님이 주신 데이터분석 실습문제를 풀고나니, 데이터 프레임에서 어떻게 인덱싱하며 그것을 어떻게 이용해 분류를 나눠 결과를 얻어올 수 있는 지 알게되었다. 수업만 듣고 복습을 그냥 옮겨 적으면서 가볍게 봤던 것과 다르게 더 잘 이해되고, 문제 풀이에 대한 해독력도 생기는 듯 했다. 코딩테..

[SK캠프] 4주차 WIL 250106_250112 (데이터분석 시작이다)

250106 ~ 250112 SK캠프 9기 4주 차 회고 일지 내용금주 주요 성과- 데이터 분석 개념- numpy, pandas 활용보완해야할 점데이터분석 시각화KPT Keep여기에도 groupby가 있다니! (SQL에서 보던 것 이잖아)​데이터분석이 시작되었다. 더 잘 익혀둬야해 하는 마음이 생겼다. 앞선 프로젝트에서 사용했던 numpy, pandas 를 더 자세히 배웠다. 이 안에 엄청 다양한 방식과 그것을 이용해 다양한 데이터를 분석할 수 있다는 것이 신기했다.ndarray를 이용하고 dataframe을 이용해 데이터를 분석했다. 프로젝트때 사용하면서 극히 일부지만 그래도 그렇게 선행하고, 앞서 파이썬과 SQL에서 배웠던 개념들과 비슷한 것들이 많이 있다보니 완전 처음 보는 것과 달리 보다 개념을 ..

[SK캠프] 28일차 TIL 250115 (최근접 이웃 분류 모델 훈련/평가)

Intro프로젝트 진행 중 마주한 문제 상황과 이를 해결한 과정을 상세히 기록하고, 향후 동일한 문제가 발생할 경우 신속하게 해결할 수 있도록 트러블슈팅을 체계적으로 정리하려고 합니다.과정은 크게 문제 상황 발생 / 원인 추론 / 해결 방안 / 결과 확인 순으로 트러블 슈팅을 정리문제 상황 발생iris를 load 받아, 최근접 이웃 분류 모델 훈련/평가 해보기iris_data = load_iris()iris_data.keys()# 데이터 전처리 -> 내 풀이 (라벨데이터에서 오류...)# 1. 입력-라벨 데이터train_input = iris_data.feature_namestrain_label = iris_data.target_names# 2. 훈련-테스트 데이터train_input, test_inpu..

pandas 일자 및 시간 처리 방법을 알아보자. (feat. dt)

문제에서 .dt 사용할 일이 많아서 찾아보니 다양한 것을 할 수 있었구나.   오늘은 판다스 datetime인 dt 메서드에 대해 알아보자.오늘의 배움datetime 속성에 대해 알아보자. 파이썬을 통해 데이터 분석을 하면 판다스를 정말 많이 사용하게 된다. 특히 날짜 및 시간과 관련해서 판다스 함수가 내장되어 있기 때문에 필요할 때 적절히 사용하면 편리한 것 같다.  실제로 실습 문제를 풀다가, 특정 연도, 시간 등을 많이 이용해야했고, 어떤 것들을 더 할 수 있을 지 궁금해져 판다스 공식문서를 찾아보았다. 꽤나 다양한 속성이 있었다.  Datetime 속성 Series.dt.date Python 객체의 numpy 배열을 반환합니다 datetime.date. Series.dt.time객체 의 nump..

728x90