🐣python
순환신경망(RNN)_keras
category
🐣python
URL
date
Mar 2, 2023
slug
Machine-learning-RNN-keras
author
status
Public
tags
Playdata_deep-learning & machine-learning
summary
순환신경망(rnn)
type
Post
thumbnail
updatedAt
Mar 2, 2023 03:00 AM
자연어 처리(NLP) 와 말뭉치(Corpus)
- 컴퓨터를 사용해 인가의 언어를 처리하는 분야
- 음성 인식, 기계 번역, 감정 분석
자연어 처리 시 주의해야 할 사항
- 자연어 텍스터라 할 지라도 신경망에 전달되는 것은 어떤 숫자 데이터
텍스트를 숫자데이터로 바꾸는 방법1
- 고유한 정수를 부여한다(동일한 단어를 동일한 정수에 맵핑, 단 숫자 크기에 무관하도록 우너핫 인코딩)
- 형태가 변경되는 단어인 경우, 원형으로 통일(어간 추출(Stermming), 표제어 추출(Lemmatization)
- 단어별로 분리(토큰 만들기,Tokenization), 어휘 사전 만들기 영어 등의 언어 - 공백만으로 분리 가능 한국어 등의 언어- 조사 등으로 인해 공백 만으로 분리가 어렵고 형태소 분석이 필요
- 토근에 부여되는 특수 정수가 있음 -0(패딩), 1(문장의 시작),2(어휘 사전에 없는 토근) 등
자연어 처리(NLP)
인공 지능과 어휘 사전
- 훈련 데이터에서 고유한 단어를 모아 만든 목록을 의미
- 테스트 데이터에서 학습하지 않은(어휘 사전에 없는) 새로운 단어를 만나는 경우, 2로 변환하여 신경망에 입력
텍스트를 숫자로 바꾸는 방법2
- 단어 임베딩(word embedding)
- 각 단어를 고정된 크기의 실수 벡터로 바꿈
- 원 핫 인코딩보다 훨씬 의미있는 값으로 채워져 있어 더 좋은 성능 냄
- 장점 → 입력으로 정수 데이터를 받음(원핫 인코딩이 불필요), 메모리를 효율적으로 사