Python 192

NLP (피쳐 엔지니어링, 규칙기반 시스템, 머신러닝)을 알아보자.

텍스트를 숫자로 변환하는 마법   오늘은 자연어 처리(NLP)의 Feature Engineering에 대해 알아보자.오늘의 배움자연어 처리(NLP)에서의 Feature Engineering 개념NLP 기본 Feature 종류와 구현 방법규칙 기반 시스템과 머신러닝 접근법 비교1. NLP Feature Engineering이란?정의: 텍스트 데이터를 기계학습 모델이 처리할 수 있는 숫자형 데이터로 변환하는 과정이다.핵심 개념 한 줄 설명: 인간의 언어를 컴퓨터가 이해할 수 있는 숫자로 바꾸는 작업이다.특징:텍스트의 의미적, 구조적 특성을 수치화한다모델의 성능에 직접적인 영향을 미친다다양한 방법(BoW, TF-IDF, 임베딩 등)을 사용한다Bag-of-Words (BoW): 각 단어의 출현 빈도를 벡터로 표..

Develop/AI 2025.02.19

[SK캠프] 9주차 WIL 250210_250216 (모델 성능평가 지표)

250210 ~ 250216 SK캠프 9기 9주 차 회고 일지 내용금주 주요 성과- DataBase 학습 및 실습- Web Crawling 학습 및 실습보완해야할 점데이터베이스 개념, 웹크롤링 사용법KPT Keep모델 성능 검사 지표​팀프로젝트 하면서 사용하던 것들을 더 자세히 배우게 된 주였다.ROC, SMOTE등 성능 지표에 대해 사용하던걸 개념을 더 익혔고, 그것을 통해 팀프로젝트의 결과 지표를 작성하였다. 팀프로젝트를 WBS에 맞춰 잘 수행하다보니, 우리에겐 시간이 조금 남아, 그 시간 동아 백준 코딩테스트 문제를 풀었다.1차원 배열의 문제를 푸는 데 많이 어려웠다. 도움을 받으면서 푼다해도 그게 언젠가 나에게 자산이 되겠지!...ㅜ..​팀프로젝트 완료 - https://yoozi.tistory...

[5622] 다이얼

문제백준 문제상근이의 할머니는 아래 그림과 같이 오래된 다이얼 전화기를 사용한다.전화를 걸고 싶은 번호가 있다면, 숫자를 하나를 누른 다음에 금속 핀이 있는 곳 까지 시계방향으로 돌려야 한다. 숫자를 하나 누르면 다이얼이 처음 위치로 돌아가고, 다음 숫자를 누르려면 다이얼을 처음 위치에서 다시 돌려야 한다.숫자 1을 걸려면 총 2초가 필요하다. 1보다 큰 수를 거는데 걸리는 시간은 이보다 더 걸리며, 한 칸 옆에 있는 숫자를 걸기 위해선 1초씩 더 걸린다.상근이의 할머니는 전화 번호를 각 숫자에 해당하는 문자로 외운다. 즉, 어떤 단어를 걸 때, 각 알파벳에 해당하는 숫자를 걸면 된다. 예를 들어, UNUCIC는 868242와 같다.할머니가 외운 단어가 주어졌을 때, 이 전화를 걸기 위해서 필요한 최소 ..

TIL/Baekjoon 2025.02.19

자연어 처리 요약 정리(1)

언어를 이해하고 분석하기   오늘은 자연어 처리에 대해 익히고 가자.오늘의 배움자연어 처리 기초자연어 처리 기법자연어 임베딩 및 벡터화 이해1. NLP 자연어 처리(Natural Language Processing, NLP): 인간이 사용하는 자연어를 컴퓨터가 이해하고 처리할 수 있도록 하는 기술   그렇게 딥러닝 기반 NLP 접근법으로 진화했다.딥러닝 기반 NLP 접근법 이전과 이후의 차이는 아래와 같다.규칙 기반 시스템통계적 모델(기반)딥러닝 기반수동으로 작성한 규칙 의존단어의 빈도나 출현 확률 사용대량 데이터 활용 자동 특징(feature) 학습, 다층구조로 복잡한 비선형 관계 학습특정 패턴에 대한 정확한 결과 도출통계적 패턴 탐색문맥 이해, 자연스러운 언어 생성, 적응력 뛰어남(유연성)비유연성, ..

Develop/AI 2025.02.18

자연어 처리 전통적 기법 - 전처리를 알아보자.

자연어 처리 전통적 기법 - 전처리   오늘은 인공지능의 자연어 처리에서 가장 기초가 되는 전처리 기법에 대해 공부해보자.오늘의 배움자연어 처리의 전처리 단계와 중요성원시 데이터 처리 기법과 문장 분리 방법기본 전처리 과정과 KoNLPy 활용 방법1. 자연어 처리 전처리란?정의: 자연어 처리에서 전처리란 원시 텍스트 데이터를 기계가 이해하고 분석할 수 있는 형태로 변환하는 과정이다.핵심 개념 한 줄 설명: 복잡한 원문 텍스트를 컴퓨터가 이해할 수 있도록 정리하고 정형화하는 작업이다.특징:모델의 성능과 학습 속도에 큰 영향을 미친다불필요한 정보를 제거하여 데이터의 노이즈를 줄인다텍스트의 일관성을 높여 패턴 학습을 용이하게 한다필요성: 실제 텍스트 데이터는 불규칙하고 노이즈가 많아 그대로 사용하면 모델의 학..

Develop/AI 2025.02.18

[SK캠프 9기] 3번째_근육빵빵_250211~250214 (시연 및 발표)

[프로젝트 간략 소개]- 프로젝트 명: 근육빵빵- 프로젝트 기간: 25.02.03 ~ 25.02.14- 문제 정의:헬스장 회원 이탈률 증가로 인한 매출 감소- 역할 및 기여:기획, 데이터 수집·분석, XGBoost 모델 개발 및 최적화, Notion/Discord기반 팀 소통 및 이슈 관리 담당, GIt 기반 협업 환경에서 관리 프로세스 구축, 전체 팀 리드- 성과:AUC 0.9774, 정확도 93.3% 달성, 장기 회원 유지 전략 수립 지원, 협업 및 데이터 기반 의사결정 강화- 깃허브: https://github.com/yujitaeng/SKN09-2nd-5Team[근육빵빵] - Sprint 3 회고록기간: 2025.02.03 - 2025.02.14 1. 이번 목표XGBoost 모델 최적화 및 성능 ..

SKN_09_Project 2025.02.17

자연어 처리 기초(NLP)를 알아보자.

언어의 바다에서 의미를 발견하기   오늘은 자연어 처리(NLP)의 기초에 대해 알아보자.오늘의 배움코퍼스 개념과 구조자연어 이해와 문장 구조 분석문맥 자유 문법과 자연어 해석1. 자연어 처리란?정의: 인간이 사용하는 자연어를 컴퓨터가 이해하고 처리할 수 있도록 하는 기술 핵심 개념 한 줄 설명: 컴퓨터가 인간의 언어를 분석하고 이해하여 유용한 작업을 수행하는 과정특징: 언어의 모호성과 복잡성을 다루며, 문맥을 이해해야 한다 장점: 대량의 텍스트 데이터를 자동으로 처리할 수 있다단점: 언어의 모호성과 문맥 이해의 어려움이 있다필요성: 정보 검색, 감성 분석, 기계 번역 등 다양한 응용 분야에 활용 예시:기계번역: 한 언어로 작성된 텍스트를 다른 언어로 자동 번역 (예시: 구글 번역, 파파고 등)음성 인식 ..

Develop/AI 2025.02.17

[2908] 상수

문제백준 문제상근이의 동생 상수는 수학을 정말 못한다. 상수는 숫자를 읽는데 문제가 있다. 이렇게 수학을 못하는 상수를 위해서 상근이는 수의 크기를 비교하는 문제를 내주었다. 상근이는 세 자리 수 두 개를 칠판에 써주었다. 그 다음에 크기가 큰 수를 말해보라고 했다.상수는 수를 다른 사람과 다르게 거꾸로 읽는다. 예를 들어, 734와 893을 칠판에 적었다면, 상수는 이 수를 437과 398로 읽는다. 따라서, 상수는 두 수중 큰 수인 437을 큰 수라고 말할 것이다.두 수가 주어졌을 때, 상수의 대답을 출력하는 프로그램을 작성하시오.입력첫째 줄에 상근이가 칠판에 적은 두 수 A와 B가 주어진다. 두 수는 같지 않은 세 자리 수이며, 0이 포함되어 있지 않다.출력첫째 줄에 상수의 대답을 출력한다.예제 입..

TIL/Baekjoon 2025.02.16

[1152] 단어의 개수

문제백준 문제 영어 대소문자와 공백으로 이루어진 문자열이 주어진다. 이 문자열에는 몇 개의 단어가 있을까? 이를 구하는 프로그램을 작성하시오. 단, 한 단어가 여러 번 등장하면 등장한 횟수만큼 모두 세어야 한다.입력첫 줄에 영어 대소문자와 공백으로 이루어진 문자열이 주어진다. 이 문자열의 길이는 1,000,000을 넘지 않는다. 단어는 공백 한 개로 구분되며, 공백이 연속해서 나오는 경우는 없다. 또한 문자열은 공백으로 시작하거나 끝날 수 있다.출력첫째 줄에 단어의 개수를 출력한다.예제 입력 1 The Curious Case of Benjamin Button예제 출력 1 6예제 입력 2  The first character is a blank예제 출력 2 6예제 입력 3 The last character..

TIL/Baekjoon 2025.02.16

[2675] 문자열 반복

문제백준 문제 문자열 S를 입력받은 후에, 각 문자를 R번 반복해 새 문자열 P를 만든 후 출력하는 프로그램을 작성하시오. 즉, 첫 번째 문자를 R번 반복하고, 두 번째 문자를 R번 반복하는 식으로 P를 만들면 된다. S에는 QR Code "alphanumeric" 문자만 들어있다.QR Code "alphanumeric" 문자는 0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ\$%*+-./: 이다.입력첫째 줄에 테스트 케이스의 개수 T(1 ≤ T ≤ 1,000)가 주어진다. 각 테스트 케이스는 반복 횟수 R(1 ≤ R ≤ 8), 문자열 S가 공백으로 구분되어 주어진다. S의 길이는 적어도 1이며, 20글자를 넘지 않는다. 출력각 테스트 케이스에 대해 P를 출력한다.예제 입력 1 23 A..

TIL/Baekjoon 2025.02.16
728x90