머신러닝 39

자연어 딥러닝 기초 요약 정리

자연어 딥러닝? 텍스트 데이터에 대해 신경망 모델을 활용하여 의미를 학습하고 작업을 수행하는 방법론   오늘은 자연어 딥러닝 기초에 대해 한 눈에 익혀보자.오늘의 배움RNNLSTMGRU텍스트 분류1. RNN(Recurrent Neural Network) 1-1. 개념순차적인 데이터를 처리하기 위해 이전 정보를 기억하는 구조의 신경망텍스트, 음성, 시계열 데이터 등 순차 데이터 처리에 적합 1-2. 구조  입력층(Input Layer), 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성은닉층에서 이전 시점의 정보가 현재 시점에 전달되는 메모리 셀 포함각 시간 단계에서 동일한 가중치 공유(Parameter Sharing) 1-3. 한계 장기 의존성 문제: 시퀀스가 길어질수록 초기 정..

Develop/AI 2025.03.02

자연어 딥러닝 기초 - 텍스트 분류를 알아보자.

메일 스팸 필터링부터 감성 분석까지   오늘은 자연어처리의 텍스트 분류에 대해 알아보자.오늘의 배움나이브 베이즈 분류기의 확률적 접근RNN 기반 텍스트 분류 모델CNN 기반 텍스트 분류 모델과 멀티 레이블 분류1. 텍스트 분류 정의: 주어진 텍스트를 사전에 정의된 카테고리로 분류하는 자연어처리 작업이다.핵심 한 줄 설명: 텍스트의 특징을 추출하고 이를 바탕으로 어떤 카테고리에 속하는지 판단하는 과정이다.특징: 단어 빈도, 시퀀스 정보, 문맥적 의미 등을 활용한다.필요성: 대량의 텍스트 데이터를 자동으로 분류하여 정보 관리 및 분석이 필요하다.장점: 자동화된 정보 처리로 시간과 비용 절감이 가능하다.단점: 복잡한 언어 현상이나 문맥 이해에 한계가 있을 수 있다.[핵심 공식]- 나이브 베이즈 공식: P(c|..

Develop/AI 2025.03.02

[SK캠프] 9주차 WIL 250210_250216 (모델 성능평가 지표)

250210 ~ 250216 SK캠프 9기 9주 차 회고 일지 내용금주 주요 성과- DataBase 학습 및 실습- Web Crawling 학습 및 실습보완해야할 점데이터베이스 개념, 웹크롤링 사용법KPT Keep모델 성능 검사 지표​팀프로젝트 하면서 사용하던 것들을 더 자세히 배우게 된 주였다.ROC, SMOTE등 성능 지표에 대해 사용하던걸 개념을 더 익혔고, 그것을 통해 팀프로젝트의 결과 지표를 작성하였다. 팀프로젝트를 WBS에 맞춰 잘 수행하다보니, 우리에겐 시간이 조금 남아, 그 시간 동아 백준 코딩테스트 문제를 풀었다.1차원 배열의 문제를 푸는 데 많이 어려웠다. 도움을 받으면서 푼다해도 그게 언젠가 나에게 자산이 되겠지!...ㅜ..​팀프로젝트 완료 - https://yoozi.tistory...

[SK캠프 9기] 3번째_근육빵빵_250211~250214 (시연 및 발표)

[프로젝트 간략 소개]- 프로젝트 명: 근육빵빵- 프로젝트 기간: 25.02.03 ~ 25.02.14- 문제 정의:헬스장 회원 이탈률 증가로 인한 매출 감소- 역할 및 기여:기획, 데이터 수집·분석, XGBoost 모델 개발 및 최적화, Notion/Discord기반 팀 소통 및 이슈 관리 담당, GIt 기반 협업 환경에서 관리 프로세스 구축, 전체 팀 리드- 성과:AUC 0.9774, 정확도 93.3% 달성, 장기 회원 유지 전략 수립 지원, 협업 및 데이터 기반 의사결정 강화- 깃허브: https://github.com/yujitaeng/SKN09-2nd-5Team[근육빵빵] - Sprint 3 회고록기간: 2025.02.03 - 2025.02.14 1. 이번 목표XGBoost 모델 최적화 및 성능 ..

SKN_09_Project 2025.02.17

[SK캠프 9기] 3번째_근육빵빵_250207~250210(머신러닝 학습)

[프로젝트 간략 소개]- 프로젝트 명: 근육빵빵- 프로젝트 기간: 25.02.03 ~ 25.02.14- 문제 정의:헬스장 회원 이탈률 증가로 인한 매출 감소- 역할 및 기여:기획, 데이터 수집·분석, XGBoost 모델 개발 및 최적화, Notion/Discord기반 팀 소통 및 이슈 관리 담당, GIt 기반 협업 환경에서 관리 프로세스 구축, 전체 팀 리드- 성과:AUC 0.9774, 정확도 93.3% 달성, 장기 회원 유지 전략 수립 지원, 협업 및 데이터 기반 의사결정 강화- 깃허브: https://github.com/yujitaeng/SKN09-2nd-5Team [근육빵빵] - Sprint 2 회고록기간: 2025.02.03 - 2025.2.14 1. 이번 목표랜덤포레스트 모델 성능 최적화그리드서..

SKN_09_Project 2025.02.13

불균형 데이터 처리 기법-SMOTE를 알아보자.

데이터의 균형을 맞추는 다양한 방법   오늘은 SMOTE와 관련 불균형 데이터 처리 기법들에 대해 알아보자.오늘의 배움불균형 데이터셋의 이해와 문제점SMOTE 및 관련 샘플링 기법의 종류와 특징파이썬을 활용한 다양한 샘플링 기법 실제 적용 방법1. 불균형 데이터 처리 기법정의: 한쪽 클래스의 데이터가 다른 클래스에 비해 현저히 적은 불균형 데이터셋을 처리하는 다양한 방법론이다.핵심 개념 한 줄 설명: 데이터의 분포를 조정하여 각 클래스 간의 균형을 맞추는 기법들이다.특징:오버샘플링, 언더샘플링, 앙상블 기법 등 다양한 접근 방식 존재각 기법별로 고유한 장단점과 적용 상황이 있음데이터의 특성에 따라 적절한 기법 선택 필요필요성:편향된 학습 방지소수 클래스에 대한 예측 성능 향상모델의 일반화 능력 개선[핵심..

Develop/ML·DL 2025.02.12

모델 검증을 알아보자.

AI의 성적표 만들기   오늘은 모델 검증 방법에 대해 알아보자.오늘의 배움교차 검증의 개념과 방법다양한 평가 지표의 이해회귀와 분류 모델의 성능 평가 방법1. 모델 검증정의: AI 모델이 얼마나 잘 작동하는지 다양한 방법으로 평가하는 과정핵심 개념 한 줄 설명: AI의 성적표를 만드는 과정으로, 다양한 시험 문제를 통해 실력을 검증하는 것과 비슷하다특징:여러 가지 평가 지표를 사용데이터를 나눠서 반복 평가실제 환경에서의 성능을 예측[핵심 공식]- 정확도 = (올바른 예측) / (전체 예측) - 정밀도 = TP / (TP + FP) - 재현율 = TP / (TP + FN) - F1 Score = 2 × (정밀도 × 재현율) / (정밀도 + 재현율)실제 예시로 이해하기[일상적인 예시] 학교 성적 평가 시스..

Develop/ML·DL 2025.02.11

인공신경망 - 과적합 해결을 알아보자.

AI도 공부를 너무 열심히 하면 안 좋다   오늘은 과적합 해결에 대해 알아보자.오늘의 배움과적합의 개념과 발생 원인과적합 해결을 위한 다양한 기법들실제 코드 구현 방법1. 과적합정의: 머신러닝 모델이 학습 데이터를 너무 완벽하게 외워버려서 실제 상황에서는 성능이 떨어지는 현상핵심 개념 한 줄 설명: 시험 문제집만 달달 외워서 실전에서 응용문제를 못 푸는 현상과 비슷하다특징:학습 데이터에서는 매우 높은 성능을 보임새로운 데이터에서는 성능이 크게 저하됨모델이 너무 복잡하거나 학습 데이터가 부족할 때 주로 발생해결하기 위한 대표적인 기법: 배치 정규화(Batch Normalization), 드롭아웃(Dropout), 하이퍼파라미터 최적화(Hyperparameter Optimization)가 있다.[핵심 공식..

Develop/ML·DL 2025.02.11

[SK캠프] 8주차 WIL 250203_250209 (딥러닝의 늪)

250203 ~ 250209 SK캠프 9기 8주 차 회고 일지 내용금주 주요 성과- 딥러닝 학습- 3번째 팀프로젝트 실시보완해야할 점딥러닝 개념 학습 및 실습 복습KPT Keep팀프로젝트가 순항하는 중​ kaggle에서 고객 이탈 데이터를 찾는게 제일 어려웠다. 별로 없었다. 그중에 우리는 gym 데이터셋을 가지고 하기로 수립했고, 그다음 작업들을 진행했다. 전체적인 프로젝트 설정의 수립을 위해 우리는 커뮤니케이션을 끊임없이 하고, 투표와 같이 모두의 의견을 들어 중립적인 선택을 하려 했다. 목적에 맞는 task를 잘 수립하여 진행중이다. wbl도 마감기간에 잘 맞춰 진행 중이다. 계속 이렇게 흘러가주라!(참고: 팀프로젝트 게시글) Problem딥러닝은 따라 쳐도 뭐라는 지 모르겠는데여....​딥러닝 쉽..

최적화 함수를 알아보자.

모델의 학습 성능을 결정짓는 핵심 요소   오늘은 딥러닝 최적 모델학습- 최적화 함수에 대해 알아보자.  오늘의 배움최적화 함수의 개념과 필요성주요 최적화 함수의 종류와 특징각 최적화 함수의 장단점과 실제 적용 1. 최적화 함수정의: 딥러닝 모델의 손실을 최소화하기 위해 가중치를 조정하는 방법핵심 개념 한 줄 설명: 마치 등산을 할 때 정상으로 가는 최적의 경로를 찾는 것처럼, 모델이 가장 좋은 성능을 내는 가중치 값을 찾아가는 방법이다.특징:모델의 학습 속도, 일반화 성능, 수렴 안정성에 직접적인 영향을 미친다다양한 방식으로 가중치를 업데이트한다각각의 장단점이 뚜렷하다대표적인 최적화 함수로 확률적 경사 하강법(SGD), 모멘텀, AdaGrad, RMSprop, Adam 등핵심 공식: 기본 가중치 업데이..

Develop/ML·DL 2025.02.07
728x90