자연어처리 24

자연어 딥러닝 응용 - 언어 모델링을 알아보자.

컴퓨터가 인간의 언어를 이해하는 방법   오늘은 언어 모델링에 대해 알아보자.  오늘의 배움언어 모델링의 기본 개념n-gram 모델과 활용법신경망 기반 언어 모델링(NNLM)1. 언어 모델링 정의: 언어 모델링은 텍스트 데이터의 통계적 특성을 학습하여 문맥에 맞는 단어를 예측하거나 문장을 생성하는 모델을 만드는 과정이다.한 줄 요약: 주어진 문장이나 단어들을 보고 "다음에 어떤 단어가 올 확률이 높을까?"를 예측하는 기술이다.특징:단어 시퀀스의 확률 분포를 학습한다이전 단어들의 문맥을 바탕으로 다음 단어를 예측한다다양한 종류(통계 기반, 신경망 기반)가 있다필요성:자연스러운 문장 생성에 필수적이다기계 번역, 음성 인식, 문서 요약 등에 활용된다인간-기계 상호작용의 기초가 된다장점/단점:장점: 문맥을 이해..

Develop/AI 2025.03.02

자연어 딥러닝 기초 요약 정리

자연어 딥러닝? 텍스트 데이터에 대해 신경망 모델을 활용하여 의미를 학습하고 작업을 수행하는 방법론   오늘은 자연어 딥러닝 기초에 대해 한 눈에 익혀보자.오늘의 배움RNNLSTMGRU텍스트 분류1. RNN(Recurrent Neural Network) 1-1. 개념순차적인 데이터를 처리하기 위해 이전 정보를 기억하는 구조의 신경망텍스트, 음성, 시계열 데이터 등 순차 데이터 처리에 적합 1-2. 구조  입력층(Input Layer), 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성은닉층에서 이전 시점의 정보가 현재 시점에 전달되는 메모리 셀 포함각 시간 단계에서 동일한 가중치 공유(Parameter Sharing) 1-3. 한계 장기 의존성 문제: 시퀀스가 길어질수록 초기 정..

Develop/AI 2025.03.02

자연어 딥러닝 기초 - 텍스트 분류를 알아보자.

메일 스팸 필터링부터 감성 분석까지   오늘은 자연어처리의 텍스트 분류에 대해 알아보자.오늘의 배움나이브 베이즈 분류기의 확률적 접근RNN 기반 텍스트 분류 모델CNN 기반 텍스트 분류 모델과 멀티 레이블 분류1. 텍스트 분류 정의: 주어진 텍스트를 사전에 정의된 카테고리로 분류하는 자연어처리 작업이다.핵심 한 줄 설명: 텍스트의 특징을 추출하고 이를 바탕으로 어떤 카테고리에 속하는지 판단하는 과정이다.특징: 단어 빈도, 시퀀스 정보, 문맥적 의미 등을 활용한다.필요성: 대량의 텍스트 데이터를 자동으로 분류하여 정보 관리 및 분석이 필요하다.장점: 자동화된 정보 처리로 시간과 비용 절감이 가능하다.단점: 복잡한 언어 현상이나 문맥 이해에 한계가 있을 수 있다.[핵심 공식]- 나이브 베이즈 공식: P(c|..

Develop/AI 2025.03.02

자연어 딥러닝 기초 - GRU를 알아보자.

RNN의 진화, 더 똑똑하고 효율적인 기억력   오늘은 GRU에 대해 알아보자.오늘의 배움순환 신경망(RNN)의 발전된 구조GRU의 게이트 메커니즘양방향 GRU의 특성과 활용1. GRU (Gated Recurrent Unit)정의: RNN의 변형 구조로, 게이트 메커니즘을 통해 장단기 메모리를 효과적으로 관리하는 신경망 구조이다.핵심 개념 한 줄 설명: 업데이트와 리셋 게이트를 사용해 필요한 정보는 저장하고 불필요한 정보는 제거하는 스마트한 메모리 시스템이다.특징:LSTM보다 단순한 구조GRU는 LSTM에서 사용되는 셀 상태(Cell State)와 은닉 상태(Hidden State)를 하나로 통합하여 은닉 상태(h)만 유지한다.2개의 게이트만 사용LSTM의 3가지 게이트(망각, 입력, 출력 게이트) 대신..

Develop/AI 2025.03.02

[SK캠프] 10주차 WIL 250217_250223 (자연어 딥러닝)

250217 ~ 250223 SK캠프 9기 10주 차 회고 일지 내용금주 주요 성과- 자연어 처리 개요 및 전처리 기법- 자연어 딥러닝 (RNN, LSTM)보완해야할 점사용 흐름(원리) 이해 및 개념 정리1. 금주 요약 정리자연어 처리(Natural Language Processing, NLP):인간이 사용하는 자연어를 컴퓨터가 이해하고 처리할 수 있도록 하는 기술   그렇게 딥러닝 기반 NLP 접근법으로 진화했다.딥러닝 기반 NLP 접근법 이전과 이후의 차이는 아래와 같다.규칙 기반 시스템통계적 모델(기반)딥러닝 기반수동으로 작성한 규칙 의존단어의 빈도나 출현 확률 사용대량 데이터 활용 자동 특징(feature) 학습,다층구조로 복잡한 비선형 관계 학습특정 패턴에 대한 정확한 결과 도출통계적 패턴 탐색..

자연어 처리 요약 정리(2)

언어를 이해하고 분석하기   오늘은 자연어 처리 요약을 해보자.오늘의 배움정규 표현식 & 인코딩패딩워드 클라우드FastText1. 정규 표현식 (Regular Expression)특정한 규칙을 가진 문자열을 찾기 위한 패턴정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능  1-1. 정규 표현식 문법 요약기호(명령어)설명예제.임의의 한 글자 (개행 문자 제외)a.b → "acb", "a1b"^문자열의 시작^abc → "abc로 시작하는"$문자열의 끝abc$ → "abc로 끝나는"*0개 이상 반복a* → "", "a", "aaa"+1개 이상 반복a+ → "a", "aaa"?0개 또는 1개a? → "", "a"{m}정확히 m개 반복a{3} → "aaa"{m,n}m..

Develop/AI 2025.02.23

자연어 딥러닝 기초 - LSTM을 알아보자.

기억력이 좋은 인공신경망   오늘은 LSTM에 대해 알아보자.오늘의 배움LSTM의 기본 구조와 동작 원리게이트 메커니즘의 역할과 특징양방향 LSTM의 구조와 활용1. LSTM (Long Short-Term Memory)정의: Long Short-Term Memory의 약자로, 장기 기억력을 가진 특별한 형태의 인공신경망핵심 개념 한 줄 설명: 정보를 선택적으로 기억하고 잊을 수 있는 '게이트(gate)'라는 특별한 구조를 가진 AI 기술 → 셀 상태(Cell State)를 추가하여 정보를 기억하거나 잊는다.특징:장기 의존성(Long-Term Dependency) 처리일반적인 RNN은 시간이 길어질수록 과거의 정보를 잘 기억하지 못하는 기울기 소멸(Gradient Vanishing) 문제가 발생한다.LST..

Develop/AI 2025.02.23

자연어 딥러닝 기초 - RNN 알아보자.

인간의 언어를 이해하는 AI의 비밀   오늘은 자연어 딥러닝-RNN에 대 알아보자.오늘의 배움자연어 딥러닝의 기본 개념시퀀스 데이터의 특성과 활용순환 신경망(RNN)의 구조와 원리1. 자연어 딥러닝이란?정의: 텍스트 데이터에 신경망 모델을 활용하여 의미를 학습하고 다양한 작업을 수행하는 기술핵심 개념 한 줄 설명: 컴퓨터가 인간의 언어를 이해하고 처리할 수 있도록 하는 인공지능 기술특징:대량의 텍스트 데이터를 학습함단어나 문장의 의미와 문맥을 파악함다양한 자연어 처리 작업(번역, 감정분석 등)을 수행함필요성:인간과 기계 간의 자연스러운 소통을 위해 필수적방대한 텍스트 정보를 자동으로 분석하고 처리하기 위함장점/단점:장점: 인간의 개입 없이 텍스트를 이해하고 처리 가능, 다양한 언어에 적용 가능단점: 많은..

Develop/AI 2025.02.23

자연어 임베딩 이해를 알아보자.

언어를 숫자로 표현하는 마법   오늘은 자연어 처리(NLP)의 핵심 기술인 '자연어 임베딩'에 대해 알아보자.오늘의 배움자연어 임베딩 개념과 역할벡터화의 원리와 종류다양한 임베딩 기법과 활용법1. 자연어 임베딩이란정의: 텍스트 데이터를 수치 데이터(벡터)로 변환하여 컴퓨터가 처리할 수 있도록 만드는 기술핵심 개념 한 줄 설명: 단어나 문장을 숫자로 된 좌표계에 배치하여 의미적 관계를 수학적으로 표현하는 방법특징:단어 간 유사도를 수치로 계산 가능 (코사인 유사도, 유클리드 거리)의미와 문법 정보를 벡터 공간에 함축다차원 공간에 단어를 배치하여 관계 표현필요성:컴퓨터는 텍스트가 아닌 숫자만 처리할 수 있음언어의 복잡한 의미 관계를 수학적으로 표현해야 함머신러닝 알고리즘 적용을 위한 전처리 과정임장점:단어 ..

Develop/AI 2025.02.21

어간 추출 알아보자.

어떻게 잘라서 변환할 것 인가   오늘은 어간추출 - stemming, lemmatization에 대해 알아보자.오늘의 배움stemminglemmatization어간 추출Stemming : 단순히 어미를 잘라 변환 (PorterStemmer는 조금 더 보수적으로 자르고 / LancasterStemmer는 공격적으로 자르는 편)from nltk.stem import PorterStemmer, LancasterStemmerfrom nltk.tokenize import word_tokenize# 두 가지 다른 Stemmerporter = PorterStemmer()lancaster = LancasterStemmer()words = ["running", "flies", "happily", "better", "s..

Develop/AI 2025.02.19
728x90