자갈돌의 devLog

[Week 6]AI 개발 기초

2024-09-12T05:08:00+00:00

이번 주부터는 다음주 추석을 끼워서 총 3주(학습 기간 2주) 간 문장 유사도 측정 프로젝트를 진행하게 되었습니다. 해당 기간의 강의로 먼저 AI 개발 기초를 수강하였습니다.

AI 엔지니어링의 사례

우버 택시

우버는 시간대별로 지역별 수요 예측을 진행하여 운전자를 수요가 많은 지역으로 이동시킴으로써 수요/공급 균형을 맞춘다.

도착 예정 시간(ETA; Estimated Time of Arrival)을 Tabular 데이터에 Transformer를 적용하여 해결하였다.

DeepETA: How Uber Predicts Arrival Times Using Deep Learning

도어대시

개인화 추천 서비스에 graph 알고리즘을 적용하였다.

Beyond the Click: Elevating DoorDash’s personalized notification experience with GNN recommendation

듀오링고

Birdbrain이라는 학습자의 맞춤형 난이도를 계산하는 인공지능을 제작하였다.

Learning how to help you learn: Introducing Birdbrain!

Linux Shell

사용자가 문자를 입력해 컴퓨터에 명령할 수 있도록 하는 프로그램

sh: 최초의 쉘
bash: Linux 표준 쉘
zsh: Mac 카탈리나 OS 기본 쉘

shell command

$ man                           # 커맨드의 메뉴얼 확인
$ ls -alh                       # a: All(숨김파일도 확인)
                                # l: Long(퍼미션, 용량, 날짜 등 표시)
                                # h: Human-readable(용량을 GB, MB로 읽기 쉽게 표시)

$ pwd                           # Print Working Directory
$ sudo                          # superuser do
$ cat                           # 파일 내용 출력
$ cat hello.sh > world.sh       # 결과를 해당 파일에 Overwrite
$ cat hello.sh >> world.sh      # 결과를 해당 파일에 Append
$ history                       # 최근 입력한 쉘 커맨드 history 출력
                                # !{history num} 입력 시 해당 커맨드 다시 사용 가능

$ find . -name "File"           # 현재 폴더에서 File이란 이름을 가지는 파일/디렉토리 검색
$ alias                         # 명령어 단축별칭 확인 가능
$ alias ll2='ls -l'             # 별칭 지정

$ tree -L 2                     # 레벨(깊이)까지의 폴더 구조 tree 출력

$ head -n 3 test.sh             # 파일 앞/뒤 n행 출력
$ tail -n 3 test.sh

# 파이프라인을 통해 결과 chaining
# sort로 행 단위 정렬(-r: 내림차순)
# uniq로 중복 제거
# wc -l 로 개수 세기
$ cat fruits.txt | sort | uniq | wc -l

$ grep -i "e$" grep_file        # 패턴과 매칭되는 라인 검색
                                # -i: 대소문자 구분X, -w: 정확히 그 단어
                                # -v: 특정 패턴 제외 결과

$ cut -d : -f 1,7 cut_file      # -d로 delimeter 지정
                                # -f로 잘라낼 field 지정(첫번째와 7번째)
                                # 잘라낸 값을 delimeter로 구분해 출력해준다.

$ awk -F: '{print $1}' cut_file # -F로 구분자 지정
                                # 수행할 동작 지정 가능
                                # $1은 첫번째 값을 의미

# 표준 스트림
# 0:stdin; 1:stdout; 2:stderr
# 2>&1 stderr를 stdout에 포함해서 출력
# &는 background로 실행한다는 뜻
$ python train.py > log_file 2>&1 &

$ nohup python3 app.py &        # nohup으로 하면 해당 백그라운드 프로세스가 터미널 종료 후에도 동작

$ curl -X localhost:5000/ {data} #  Clinet URL 웹 서버로 요청 테스트 가능

$ df -h                         # Disk Free; -h: 읽기 쉽게 표시

SSH(Secure Shell)

vscode로 ssh 연결해서 편하게 원격 조작도 가능하다.

SSH Tunneling

방화벽 등의 이슈로 접근이 제한될때 안전한 터널을 만들고 터널을 통해 우회한다.

$ ssh -L 로컬_포트:원격_호스트:원격_포트 사용자명@SSH_서버

명령어를 실행시킨 컴퓨터의 8080 포트가 오픈
8080포트로 들어오는 트래픽은 SSH터널을 통해 SSH서버의 30952포트로 전달
해당 컴퓨터의 localhost:8080에 접속하면 SSH서버의 30952포트에 연결

Streamlit

Python으로 Server Side하게 빠르게 프로토타입을 제작하여 배포 가능하다.

streamlit 배포예시 https://streamlit.io/gallery

import streamlit as st
import pandas as pd
import pickle
from sklearn.preprocessing import LabelEncoder
import plotly.express as px
import plotly.graph_objects as go

st.set_page_config(page_title="Titanic Survival Predictor", layout="wide")

st.sidebar.title("User Login")
# 개발을 할 때 정말 많이 발생하는 오류는 대부분 오타 때문

# 모델 Load, DB 연결 등을 cache_resource 사용
@st.cache_resource
def load_model():
    """
    titanic_rf_model과 scaler를 불러오는 함수
    """
    with open('titanic_rf_model.pkl', 'rb') as f:
        model = pickle.load(f)
    with open('titanic_scaler.pkl', 'rb') as f:
        scaler = pickle.load(f)
    return model, scaler

# 데이터, API Request의 Response를 저장하고 싶은 경우 사용
@st.cache_data
def load_data():
    url = "https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv"
    data = pd.read_csv(url)
    data = data.drop(['Name', 'Siblings/Spouses Aboard', 'Parents/Children Aboard'], axis=1)
    data['Age'].fillna(data['Age'].median(), inplace=True)
    data['Fare'].fillna(data['Fare'].median(), inplace=True)
    return data

def prepare_input(pclass, sex, age, fare, scaler):
    """
    Input 데이터 전처리
    """
    input_data = pd.DataFrame({
        'Pclass': [pclass],
        'Sex': [sex],
        'Age': [age],
        'Fare': [fare]
    })

    label_encoder = LabelEncoder()
    input_data['Sex'] = label_encoder.fit_transform(input_data['Sex'])

    input_data_scaled = scaler.transform(input_data)

    return input_data_scaled


# 로그인 구현(Session State)
# session state는 st.session_state에 저장. st.session_state.{key}에 저장해서 사용
# logged_in
if 'logged_in' not in st.session_state:
    st.session_state.logged_in = False

# logged_in이 False면 => 로그인에 필요한 정보를 입력할 수 있는 공간을 노출
if not st.session_state.logged_in:
    username = st.sidebar.text_input("Username")
    password = st.sidebar.text_input("Password", type="password")

    if st.sidebar.button("Login"):
        if username == "admin" and password == "boostcamp-ai-tech!!":
            st.session_state.logged_in = True
            st.sidebar.success(f"{username}으로 로그인 되었습니다")
        else:
            st.sidebar.error("아이디 또는 비밀번호가 틀렸습니다. 다시 시도해주세요")

if st.session_state.logged_in:
    st.sidebar.success("Welcome to the Titanic Survival Predictor!")

    menu = st.sidebar.radio("Menu", ["데이터 분포 확인하기", "생존 예측하기"])

else:
    st.warning("로그인을 진행해주세요")
    st.stop() # 특정 조건에서 나머지 부분의 실행을 막고 싶을 때 사용(아래 코드가 실행되지 않도록 설정)

model, scaler = load_model()

# st.selectbox, radio, slider, number_input, date_input

st.title("Titanic Survival Predictor!")
st.subheader(":crystal_ball: Predict Survival")

# pclass
pclass = st.selectbox("Passenger Class", [1, 2, 3])

# sex
sex = st.radio("Sex", ["male", "female"])

# age
age = st.slider("Age", 0, 100, 30)

# fare
fare = st.number_input("Fare", min_value=0.0, value=32.2)

if st.button("Predict"):
    st.write("hello")

    user_input = prepare_input(pclass, sex, age, fare, scaler)
    prediction = model.predict_proba(user_input)[0][1]

    st.write(prediction)
    if prediction > 0.5:
        st.success(f"Passenger Survived with {prediction:.2%} probability :thumbsup:")
    else:
        st.error(f"Passenger did not Survive with {1-prediction:.2%} probability :thumbsdown:")

외에도 sidebar로 메뉴 토글 등 적은 시간으로 빠르게 demo 사이트를 제작가능하다.

Streamlit은 상호작용 시 전체 코드를 재실행하게 된다. interactive 후 기억을 위해서는 session_state를 활용해야한다.

if st.sidebar.button("Login"):
    if username == "admin" and password == "boostcamp-ai-tech!!":
        st.session_state.logged_in = True
        st.sidebar.success(f"{username}으로 로그인 되었습니다")

하지만, 웹에서 주로 이야기하는 쿠키와 세션과 같이 클라이언트 정보를 쿠키로 관리하는것이 아니기 때문에 새로고침하면 세션이 날아가버린다.

데이터 로드 등 개별적으로 항상 실행할 필요 없는 함수는 @st.cache_data 나 @st.cache_resource 등으로 캐싱전략을 취할 수 있다.

[Week 5]NLP theory

2024-09-04T06:44:00+00:00

이번주는 Transformer와 Bert에 대해 자세히 공부하였습니다.

Transformer

RNN 계열은 입력 sequence를 하나씩 반복해서 읽어야만 하고, 이는 속도 저하와 함께 먼 거리의 token들에 대해 vanishing이 일어나게 된다. 이에 대한 해결로 attention 매커니즘을 통한 각 입력 sequence에 대해 직접 연결을 하도록 self-attention을 도입하였다.

Self-Attention(Dot-Product)

“나는 학교에 간다” 문장에서의 “나는”에 대한 attention 계산

각 입력 토큰은 Query, Key, Value로 선형 변환 되고 이를 통해 attention을 계산한다.

이미지의 예시를 보면, 나는에 대한 query vector와 모든 token들의 key vector를 doct product를 통해 유사도를 계산한다. 각 dot product 값(scalar)들에 softmax를 적용하여 해당 token이 다른 token들에 주의(attention)를 기울여야하는 비율을 얻을 수 있다.

softmax로 구한 각 attention 정도의 비율로 각 token들의 value vector를 가져와 더해 최종 해당 token에 대한 attention layer 출력을 얻을 수 있다.

이것을 모든 token에 대해 연산하여 입력 sequence를 attention을 통해 다른 token들과의 관계를 적절하게 반영한 encoding 표현을 얻을 수 있다.

Scaled Dot-Product Attention

attention은 앞서 말한 것과 같지만, 그대로 적용하기에 한가지 문제가 있을 수 있다. Key의 차원(= query의 차원)이 커지면 커질 수록 분산이 커진다는 문제이다.

query와 key vector를 dot product했을 때 각 element의 곱이 N(0, 1)이라면, $d_k$ 차원일 경우 분산은 $d_k$가 된다.

분산이 커진다는 것은 softmax 내 특정 값이 유난히 커질 가능성이 증가하는 것이며, 한 값에 유난히 편중되어 나머지의 gradient가 매우 작아질 수도 있다.

이에 대한 해결법으로 분산 값을 줄이기 위해 $\sqrt{d_k}$ 로 나눠 scaled 한다.

\[\text{Attention}(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right) \cdot V\]

$d_k$: Key vector의 차원(dimension)

Multi-Head Attention

Attention으로 다른 단어와의 관계를 고려한 풍부한 표현이 가능해졌다. 그렇지만 더 많은 관계에 대해 동시에 표현하고 싶기 때문에 Multi-Head Attention이 등장했다.

\[\text{MultiHead}(Q, K, V) = \text{Concat}(head_1, head_2, ... , head_h) \cdot W^O\]

Scaled Dot-Product Attention 하나를 하나의 head로 삼고 병렬적으로 h개의 attention을 각각 계산한다.

그 후, 각 token들에 대해 head들의 attention 출력을 concat하여 원하는 최종 dimension에 맞게 선형 변환한다. 이로써 입력과 출력 형태는 동일하지만, Multi-head 구조를 통해 더 풍부한 표현의 출력을 만들 수 있다.

Encoder

Transformer의 Encoder의 핵심 Multi-Head Self Attention을 알아봤다. 이 출력은 입력으로 들어왔던 sequence 데이터들의 shape과 동일하여 Residual 구조를 통해 Skip connection(Add)를 적용하고 Layer Normalization을 수행한다.

이에 대한 출력은 다시 2개 layer의 MLP를 통과하고 Add 및 Layer Norm을 수행하여 하나의 Encoder 블럭을 완료할 수 있다.

Layer Normalization

Layer Normalization을 설명하기 전에 앞서 알고 있는 Batch Normalization(BN)을 설명하고 차이를 비교하겠다.

BN은 동시에 학습하는 Batch data들에 대해 normalization이 일어난다. 정확히는 각 node 혹은 채널들에 대해 feature vector들을 전부 합한 통계량으로 normalization이 이루어진다.

반면, Layer Normalization은 Batch를 고려하지 않고 개별적인 data들 각각에서 layer(모든 채널의 feature vector)를 normalization한다.

transformer 구조에서는 layer 단위가 각 sequence들의 output feature vector 단위이다.

그렇게 normalization을 한 이후 batch norm 처럼 $\gamma, \beta$를 개별적으로 적용한다.

Positional Encoding

Transformer 구조는 순서를 바꾸어도 똑같은 출력이 나오기 때문에 순서 정보를 encoding에 추가해서 전달해줄 필요가 있다.

이때 Sinusoidal function을 활용한다.

\[\begin{aligned} PE_{(pos, 2i)}&= \sin\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \\ PE_{(pos, 2i+1)}&= \cos\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \end{aligned}\]

Decoder

Masked Multi-Head Attention이 사용되며 2번째 Attenion block에서는 Key와 Value로써 Encoder의 출력을 사용한다.

decoder의 input은 에서 부터 시작되어 다음 단어;token을 예측하고, 예측 결과가 output에 이어 붙어 다시 decoder를 거쳐 또 다시 다음 단어를 예측하는 식으로 동작한다.

즉, output으로 들어온 input들에 대해 각각 다음 단어를 vocabulary 내에서 softmax를 통해 예측하여 task를 수행하게 된다.

predict 때는 현재까지 생성된 내용으로 decoder를 거치고 마지막 token의 출력을 다음 단어로 사용하여 다시 decoder를 거치는 식으로 auto-regressive하게 동작한다.

그리고 train 단계에서는 Masked Multi-Head Attention을 사용해 각 token이 자신 이전 sequence만을 볼 수 있도록 masking을 하여 각 token이 다음 단어를 예측하게 하고 이를 backprop하여 학습하게 된다.

Masked Multi-Head Attention

위 사진과 같은 구조로 각 token의 query에 대해 이후 시간대에 등장하는 token의 key와의 유사도를 $-\infin$ 으로 변환하여 softmax에서 결과를 0으로 만든다.

BERT(Biderectional Encoder Representations from Transformer)

Transformer의 Encoder만을 사용해 self-supervised learning으로 대량의 데이터를 pretrained 한 모델이다.

Input Embedding

bert는 Trainable한 Position embedding과 함께 두개의 문장을 구분하는 Segment embedding을 추가하여 입력을 encoding한다.

token은 WordPiece embedding을 사용하여 embedding 되었다.

MLM(Masked Language Model)

Bert에는 special token으로 [Mask]를 가지고 있다. 입력 데이터의 일부(15%)에 대해 MLM을 적용하여 해당 위치의 실제 단어를 예측하는 것을 학습한다.

15%의 Token은 아래와 같이 처리된다.

80%: [Mask]
10%: 다른 무작위 Token
- Transfer learning시에는 [Mask] Token이 없기 때문에 일반화하기 위해 필요하다.
10%: 원래의 Token 그대로 사용
- 다른 무작위 token만 존재한다면 입력 토큰은 무조건 틀렸다고 판단이 가능하기 때문에, 안 틀렸을 가능성도 부여하였다.

이렇게 MLM Task를 수행할 토큰의 BERT를 거친 embedding 표현을 MLM Fully-Connected layer를 거쳐 softmax로 단어를 예측한다.

NSP(Next Sentence Prediction)

Bert는 2가지의 문장을 받는다. NSP는 문맥을 파악하여 두 문장이 연속되는지 아닌지 판단한다.

이를 위해 각 문장을 구분하는(시작과 끝에도 존재) [SEP] 토큰이 존재하며, 특정 token에 편향되지 않은 전체 문맥을 파악할 수 있는 [CLS] 토큰을 맨 앞에 두어 최종 [CLS] 토큰의 임베딩 값을 사용해 분류 task를 수행한다.

Transfer learning

BERT 모델을 학습하기 위해 사용했던 MLM, NSP layer를 버리고 BERT를 embedding 모델로 사용한다.

앞서 말했듯이 self-supervised learning을 사용하여 BERT 모델을 충분히 학습할 수 있으므로 다른 Task에 일반적으로 사용할 수 있을 풍부한 표현의 모델을 만들 수 있다.

Sentence Classification
- 주어진 한 문장에 대해 분류
- [CLS]에 layer를 붙여 학습
- 예시
  - SST-2(Staford Sentiment Tree bank)
  - CoLA(Corpus of Linguistic Acceptability)
Sentence Pair Classification
- 두 문장의 관계를 예측
- 문장 구분을 위해 [SEP]을 사용하고 [CLS]에 layer를 붙여 학습
- 예시
  - MNLI(Multi-Genre Natural Language Inference)
    - 전제-가설 쌍이 존재하며 관계를 예측
    - 함의;entailment, 모순;contradiction, 관련없음;neutral
  - QQP(Quora Question Pairs)
  - STS-B(Semantic Textual Similarity)
Sentence Tagging
- 문장 내의 모든 token에 대해 token 단위로 속성을 예측
- 각 token에 동일한 classification layer를 붙여 개별적으로 예측
- 예시
  - CoNLL-2003(Named Entity Recoginiton Task) 대명사 분류
Machine Reading Comprehension
- 주어진 질문에 대해 paragragh에서 정답을 찾아냄
- 시작 단어와 끝 단어를 각각 찾아낸다.
- 두번째 문장(paragragh)의 각 토큰 별로 하나의 scalar 값으로 변경 후 softmax를 취하는 것을 두번 반복
- 하나는 시작단어, 하나는 끝 단어를 예측하는 것으로 하여 정답을 찾는다.
- 예시
  - SQuAD(Stanford Question Answering Dataset)

GLUE(General Language Understanding Evaluation) Benchmark

위와 같은 여러 task에 대한 dataset을 가지고 각 task의 점수들을 구해 언어모델의 성능을 파악하는 지표이다.

BERT의 처음 나왔을 당시 GLUE score에서 높은 점수를 기록하였다.

Decoding for Generation

학습 과정이 아니라 실제 predict(generate)를 수행할 때 어떤 식으로 생성해야할까?

가장 간단하게는 한 단어씩 가장 높은 확률의 단어를 생성해나가는 Greedy 방식이다. 하지만 Greedy는 최적해를 보장하지 못하기 때문에 Beam Search 같은 기법이 제시되었다.

Beam Search 포스팅 확인

하지만 beam search도 만능이 아니다.

반복에 취약하며 가끔씩 흔치 않은 단어를 사용하기도 한다.

Sampling

이에 따라 또다른 방법으로 Sampling이 있다. softmax로 나온 각 단어의 확률 분포에서 Ramdom sampling을 수행하여 다음 단어를 도출한다.

그리고 평범한 Sampling을 보완하여 고도화하는 방법들이 존재한다.

Temperature
- $\frac{\exp(z/\tau)}{\sum_i \exp(z_i/\tau)}$
- 최종 확률 분포를 만들기 위한 softmax에 tau를 추가한다.
- $\tau > 1$: 확률 분포를 평탄화하여 다양성 증가
- $\tau < 1$: 확률 분포를 뾰족하게 하여 정확성 증가
Top-k
- 상위 k개의 확률 값에 대한 단어들 중에서 선택한다.
- 이 방법은 분포에 따라 적당한 확률의 단어도 무시될 수 있다.
Top-p
- 생성 확률 합이 p가 될때까지 후보 단어를 선정하여 sampling
- top-k의 단점을 보완한다.

[Week 4]NLP basic

2024-08-30T11:29:00+00:00

이번 주부터 각 도메인 별로 나뉘어져서 개별적인 강의를 수강하게되었습니다. 3~4주차 2주간 NLP 이론에 대해 학습합니다.

Tokenization

주어진 Text를 Token 단위로 분리하는 방법

word-level
- OOV(Out Of Vocabulary) 발생 시 Unknown 토큰으로 처리
character-level
- OOV 문제 위험은 없지만, Token 개수가 너무 많아져 장기 기억 약점이 더욱 부곽됨
subword-level
- 단어를 한번 더 쪼개 subword 단위로 토큰화함
- (e.g.) 형태소 단위

BPE(Byte Pair Encoding)

철자 단위의 token 목록을 만든다.
가장 빈도수가 높은 token pair를 token 목록에 추가한다.
최대 Vocab 사이즈에 도달할 때까지 2를 반복한다.

위 과정을 통해 BPE Vocab을 만들 수 있다. 새로운 입력 텍스트에 대한 Tokenization은 Character 단위로 왼쪽에서부터 vocab의 가장 긴 문자열 토큰으로 매칭한다.

subword tokenization의 대표적인 예시

WordPiece

BPE의 변형, 단순히 빈도로 하는 것이 아닌, 언어 모델을 사용하여 likelihood 값을 최대화하는 pair를 탐색 후 vocabulary에 추가한다.

SentencePiece

wordPiece의 변형, token 앞에 공백이 있는 경우 _를 추가로 붙인다. 토큰을 text로 변환 시에도 _를 단순히 공백으로 바꾸기만 하면 되어 편리하다.

Word2Vec

CBOW(Continuous Bag Of Word)

중심 단어로부터 윈도우 사이즈 만큼 주변 단어들을 사용해 중심단어를 예측하는 task이다.

윈도우 사이즈의 주변단어들의 embedding 값을 sum이나 avg로 집계한 뒤 output layer로 선형변환 하여 softmax 값을 구해 중심단어를 예측한다.

별도의 활성함수가 필요없다!

Skip-gram

주변 단어 1개로 단어를 예측하는 task이다.

단어 하나로 예측을 하기 때문에 CBOW보다 훨씬 어려운 task여서 모델이 더 많은 것을 학습하게 된다. 또한 하나의 예측단어에 대해 더 많은 데이터를 생성하기 때문에 학습 데이터의 관점에서도 강점이 있다.

CBOW보다 Skip-gram이 일반적으로 성능이 더 높다고 알려져 있다.

Truncated Backpropagation Through Time

RNN 계열의 BPTT는 시퀀스가 길어질수록 각 timestep에서의 activation등 을 메모리에 전부 보관해야하고, 이는 계산 비용의 증가와 과도한 메모리 요구량으로 이어진다.

이에 대한 방안으로 Truncated BPTT가 제시되었다. 시퀀스를 Chunk 단위로 나누어 해당 단위 안에서 forward 및 backward를 수행한다.

chunk 단위가 끝난 후 backward를 수행한 뒤, 다음 단계로 넘어가야할 hidden state만을 남기고 메모리를 비워 효율적인 메모리 관리가 가능하다.

고유값 분해로 알아보는 BPTT의 Exploding/Vanishing Gradient

기본적인 RNN의 식은 다음과 같다.

\[h_t = tanh(W_{hh}h_{t-1} + W_{xh}x_t + b)\]

이전 time step으로 역전파가 될때마다 $W_{hh}^T$가 총 $t-1$번 곱해질 것이다. 이는 정사각 행렬이므로 고유값 분해 Eigendecomposition를 적용하여 전개해 볼 수 있다.

\[\begin{aligned} W_{hh}^{t-1} &= \left(VDV^{-1}\right)^{t-1} \\ &= VDV^{-1} \cdot VDV^{-1} \cdot VDV^{-1} \cdot ... \cdot VDV^{-1} \\ &= VD^{t-1}V^{-1} \end{aligned}\]

여기서 D는 대각 행렬(Diagonal Matrix) 이므로 t-1 제곱은 각 대각 행렬 원소들에게 그대로 적용되어 t-1 제곱을 해야한다. 즉, 각 D의 원소들이 1보다 작은 경우 Vanishing이 일어나며 1보다 큰 경우는 exploding이 일어나게 되는 것이다.

[Week 3]EDA & DataViz

2024-08-23T10:36:00+00:00

이번 주는 데이터 분석과 함께 데이터 시각화를 배웠습니다.

카테고리형 데이터

텍스트로 구분되는 데이터(국가/혈액형/과일/성별 등)

모델이 학습하기 위해 인코딩이 필요하다.

Label encoding
- 각 label에 값을 부여해서 처리
- 하지만 순서가 생기며 불필요한 수리 관계가 발생함
One-hot encoding
- 각 label을 하나의 컬럼으로 변경하여 각 label인지(1) 아닌지(0) 값을 할당
- 더 나은 표기지만 카테고리의 종류가 많아지면 차원이 너무나도 커질 수 있다.
Binary encoding
- 레이블링을 이진수로 변환하여 encoding
- 순서 정보를 없앨 수 있으며 차원 개수를 줄일 수 있지만, 범주 의미가 거의 사라짐
Embedding / Hashing
- word embedding 같이 의미나 통계값을 활용해 적절한 값으로 변경

순환형 데이터

순서가 존재하는 경우 label encoding 등을 사용해도 좋지만, 순환형의 경우 까다롭다. (e.g.) 요일, 각도

이 경우 삼각함수 등 크기에 따라 순환되는 값을 활용하면 좋다.

NeRF에서는 각도 값의 표현력을 넓히기 위해 한 값을 sin, cos 값으로 치환해서 사용한다.

Skewness

데이터의 분포는 skew되어있을 수도 있고, 혹은 여러 분포가 하나에 합쳐진 모양인 multimodal형식이 될 수도 있다.

Negative Skewness

왼쪽으로 꼬리가 긴 경우, 큰 값이 서로 큰 차이가 나게 하기 위해 지수를 적용한다.

Square/Power Transformation
Exponential Transformation

Positive Skewness

오른쪽으로 꼬리가 긴 경우, 작은 값이 서로 큰 차이가 나게 하기 위해 로그, 제곱근 등을 적용한다.

Square-root Transformation
Log Transformation
- Box-Cox Transformation라는 범용적인 log 기반 방법이 존재한다.

Transformation 들을 적용하기 위해서는 부호를 주의해야하므로 표준화 등 전처리 이후 변형을 적용해야한다.

결측치(Missing Value)

결측치가 과반수 이상
- 결측치 유뮤만 사용
- 해당 열 삭제
결측치가 5% 이상
- 결측치에 대한 분석
- 결측치를 채울 대푯값 전략
결측치가 매우 적은 경우
- 해당 행을 그냥 무시하는 것도 고려 가능

missingno 같은 라이브러리로 결측치 분포 확인 가능

이상치(Outlier)

IQR(Inter Quantile Range)
- 3분위수와 1분위수의 차이를 의미함
- 1분위 수 - 1.5 * IQR 이하 / 3분위수 - 1.5 * 이상을 outlier로 판단
DBSCAN
- Density-Based Spatial Clusering of Applications with Noise
- 밀도 기반 클러스터링
- 클러스터링 되지 않은 값들을 outlier로 간주할 수도 있다.
Isolated Forest
- Decision Tree와 같이 동작
- 루트 노드와 거리를 통해 이상치 탐지(거리 정규화 필수)
- 이상치가 많으면 효과적이지 않음

Clustering

유사한 성격을 가진 데이터를 그룹으로 분류한다.

K-Mean
- K개로 그룹화하여,각 클러스터의 중심점을 기준으로 데이터 분리
DBSCAN
- 밀도 기반 클러스터링
HierarchicalClustering
- 수치를 동적으로 조정하며 클러스터링을 수행
- HDBSCAN 등이 존재
GMM
- 가우시안 분포가 혼합된 것으로 모델링

차원축소

기존 특성 중 일부를 선택하거나(Feature Selection), 기존 특성을 합쳐 새로운 특성을 만들 수 있다(Feature Extraction).

PCA
- 데이터의 공분산을 계산하여 고유 벡터를 찾아 투영
t-SNE
- 데이터 포인트 간 유사성 모델링하여,저차원 공간에서 재현
UMAP
- 위상 구조의 정보를 최대화하여 저차원 공간에 재현
LDA
- 클래스 간 분산을 최대화하고,클래스 내 분산을 최소화하는 방식
Isomap
- 고차원에서 최단 경로 거리에 대한 정보를 저장
Autoencoder
- 인코더/디코더 구조로 원본 데이터를 압축하였다가 복원하는 신경망을 구성하여 학습
- 학습된 신경망에서 인코더만을 사용하여 차원 축소 가능

Autoencoder가 성능이 좋지만, 학습이 필요하며 시간이 오래 걸리는 단점이 존재한다.

간편하게 사용가능한 t-SNE, UMAP이 가볍게 많이 사용된다.

학습을 위해 차원축소를 적용할 때는 보통 100개의 feature vector로 만든다.(어느 정도 PCA나 t-SNE 등으로 줄인다음 100 size로 Autoencoder를 적용하는 2step도 가능하다.)

시계열 데이터

추세, 계절성, 주기, 노이즈의 성분 분석을 통해 시계열을 분석한다.

Additive Model: 추세+계절성+주기 + 노이즈
Multiplicative Model: 추세*계절성*주기 + 노이즈
추세(trend)
- 장기적인 증가 또는 감소
계절성(seasonality)
- 특정 요일/계절에 따라 영향
주기(cycle)
- 형태적으로 유사하게 나타나는 패턴
- 계절성과 다르게 고정된 빈도가 아님
노이즈(noise)
- 왜곡된 값

정상성과 비정상성

시간에 따라 통계적 특성이 변하기 때문에 관측 시간에 따라 결과가 다를 수 있음

정상성: 시간에 따라 통계적 특성이 변하지 않는 것
비정상성: 시간에 따라 통계적 특성이 변하는 것

따라서 통계 모델에서 사용하기 위해 비정상적을 제거할 필요가 존재한다.

차분(Differencing)
- 이웃된 두 값의 차이를 사용
- trend를 제거하고 패턴을 확인 할 수 있다.
- 경우에 따라 2차 차분을 적용하기도 한다.(차분 값에 차분 적용)
평활(Smoothing)
- 지수 이동 평균(EMA) 등을 사용해 noise를 제거한다.

이미지 데이터

이미지 데이터에서 주요하게 분석해야 하는 것은 Domain(어떤 분야에 관련된 것인지), Task(수행할 목표가 뭔지), Quality(이미지 데이터셋이 적절히 선택되었는지)이다.

image data EDA

Target 중심
- 정형적인 분석
- 이미지 분포가 고르게 되었는지
- 각 범주의 이미지가 고르게 존재하는지
- 색, 밝기 등 편향된 데이터만 존재하지는 않는지
Input 중심
- input 데이터 이미지가 이상한 건 없는지
- 이미지를 직접 보며 분석
Process 중심
- 전처리-모델-결과해석 등을 반복하며 분석

텍스트 데이터

텍스트 데이터는 언어에 따라 구조가 다르며, 문법에 다양한 규칙(다양한 예외)이 존재하고, 데이터에 오타가 있는 경우가 많으며, 신조어/방언 뿐만 아니라 시기적/사회적에 따라 의미가 달라질 수가 있다. 또한 수집한 데이터에 개인정보들이 포함되어 있을 수 있으므로 데이터 처리가 매우 까다롭다.

텍스트 데이터 전처리

짧은 단어 또는 표현에 대한 전처리
- 텍스트 패턴(정규표현식)
- 텍스트 토큰화
- 소문자 변환(영어등)
- 불용어 제거
- 철자 교정
- 어간추출(stemming)
  - beginning => begin
- 표제어추출(lemmatization)
  - are,is => be
문단 등에 대한 전처리
- 문장 토큰화
- 띄어쓰기 교정
- 문장구조 분석
- 문맥적 의미분석

HCI(Human-Computer Interaction)

개인과 디지털 기기/디지털 시스템 간의 상호작용을 연구하는 분야이다.

유용성(Usefulness)
- 기술적으로 뛰어나서 쓸모가 있어야함
사용성(Usability)
- 개발자만 사용할 수 있는 게 아닌, 일반 사용자도 쉽게 사용가능해야함
감성(Affect)
- 사용하는 과정에서 적절한 느낌을 받을 수 있어야함

HCI의 목표는 사용자에서 최적의 경험을 제공하는 것

Schneiderman’s Mantra

효과적인 데이터 탐색 및 분석을 위해 제안한 3단계 접근 방식

Overview first

사용자가 데이터의 전체적인 개요를 먼저 볼 수 있어야함

Zoom and filter

사용자가 관심 있는 부분을 확대
불필요한 정보를 필터링
- 다양한 필터링 방식 제시 필요

Details-on-demand

사용자가 언제든지 특정 데이터에 대한 세부 정보를 요청할 수 있어야함

이러한 원칙을 명심하고 dashboard를 만들자

게슈탈트 이론

인간의 인지는 개별 요소들의 합이 아닌 전체적 구조에 기반한다는 이론

근접성의 원리
유사성의 원리
연속성의 원리
폐쇄성의 원리
그림-배경 분리

이러한 이론에 입각해서 원하는 부분에 주목하도록 만들 수 있다.

인지편향

확증편향(Confirmation Bias)
- 자신의 믿음을 뒷받침하는 정보만을 수집하는 경향
가용성 휴리스틱(Availability Heuristic)
- 자신의 경험이나 쉽게 떠올릴 수 있는 정보에 의존해서 판단하는 경향
앵커링(Achoring)
- 최초에 제시된 정보(앵커)에 계속해서 의존하고 판단하는 경향
프레임 효과(Framing Effect)
- 상황의 제시 방식에 따라 다른 결정을 내리는 경향

[Week 2]머신러닝 기초 이론 및 Transformer 기초

2024-08-16T10:00:00+00:00

어떠한 작업 T에 대하여 경험 E 와 함께 성능 P 를 향상시키는 것을 머신러닝이라고 한다.

작업(T): 주어진 이미지가 고양이인지 개인지 분류하는 작업
경험(E): 고양이와 개 이미지들로 이루어진 학습 데이터셋
성능(P): 이미지 분류 정확도

“Learning is any process by which a system imporves performance from experience” - Herbert Simon

최소 제곱법(OLS; Ordinary Least Squares)

선형 회귀 문제에서 파라미터(w, b)를 구하는 방법이다.

\[Cost(w, b) = \sum{(y_i- (wx_i + b))^2}\]

이를 최소화하기 위해 gradient descent 과정을 거쳐도 되지만 수식적으로 계산도 가능하다.

먼저 수식을 간략화 하기 위해 w와 b를 하나로 합쳐 $\beta$라고 표현한다.

\[\begin{aligned} \beta &= \left[ \begin{array}{c} w \\ b \end{array} \right] \\ \mathbf{x} &= \left[ \begin{array}{c} x & 1 \end{array} \right] \\ wx + b &= \mathbf{x}\beta \end{aligned}\]

위 식을 활용하면 아래와 같이 표현이 가능하다.

\[\begin{aligned} Cost(w, b) &= \sum{(y_i- (wx_i + b))^2} \\ &= \sum{(y_i- \mathbf{x}_i\beta)^2} \\ \end{aligned}\]

이제 미분 값이 0되는 지점의 $\beta$를 찾으면 된다.

\[\begin{aligned} \frac{\partial Cost(w, b)}{\partial \beta} &= \sum{-2\mathbf{x}_i \cdot (y_i- \mathbf{x}_i\beta)} \\ &= -2 X^T(Y-X\beta) \\ \end{aligned}\] \[\begin{aligned} -2X^T(Y-X\beta) &= 0 \\ X^TX\beta &= X^TY \end{aligned}\] \[\beta = (X^TX)^{-1}X^TY\]

이렇게 함으로써 원하는 파라미터를 계산 해낼 수 있다.

모델 평가 지표

MAE(평균 절대 오차)

각각의 차이를 더한다.

\[MAE = \frac{1}{n}\sum_{i=1}^n{|y_i - \hat{y}_i|}\]

MSE(평균 제곱 오차)

차이의 제곱을 더하기 때문에 데이터에 골고루 적용된다.

\[MSE = \frac{1}{n}\sum_{i=1}^n{\left(y_i - \hat{y}_i\right)^2}\]

RMSE(제곱근 평균 제곱 오차)

제곱근을 통해 오차를 원래의 단위로 변환하였다. 해석이 용이하기 때문에 모델 평가에서 많이 사용된다.

\[RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^n{\left(y_i - \hat{y}_i\right)^2}}\]

$R^2$(결정 계수)

모델이 종속변수 y의 변동성을 얼마나 잘 설명하는지를 나타내는 지표

0 ~ 1 범위를 가지며 1이면 완벽히 설명하는 것이다.

\[\begin{aligned} R^2 &= \frac{ESS}{TSS} \\ &= \frac{\sum_{i=1}^n{\left(\hat{y}_i - \bar{y}\right)^2}}{\sum_{i=1}^n{\left(y_i - \bar{y}_i\right)^2}} \\ &= 1 - \frac{RSS}{TSS} \\ &= 1 - \frac{\sum_{i=1}^n{\left(y_i - \hat{y}_i\right)^2}}{\sum_{i=1}^n{\left(y_i - \bar{y}\right)^2}} \end{aligned}\]

TSS: Total Sum of Squares
- 원래 데이터의 변동량
ESS: Explain Sum of Squares
- 모델이 표현하는 데이터(예측값)의 변동량
RSS: Residual Sum of Squares
- 예측값과 데이터와의 차이

KL Divergence(Kullback - Leibler)

실제 분포 P와 예측 분포 Q 간의 차이를 측정하여 모델을 평가하는 지표이다.

\[\begin{aligned} D_{KL}(P \parallel Q) &= \sum_{i} P(i) \log \frac{P(i)}{Q(i)} \\ D_{KL}(P \parallel Q) &= \int P(x) \log \frac{P(x)}{Q(x)} dx \end{aligned}\]

KL Divergence는 정보 이론의 엔트로피를 바탕으로 설계되었다.

Entropy
- $H(P) = - \sum_{i} P(i) \log P(i)$
- 확률 분포 P에서 발생하는 정보량
Cross Entropy
- $H(P, Q) = - \sum_{i} P(i) \log Q(i)$
- 실제 분포 P와 예측 분포 Q에 대해 발생하는 정보량

\[\begin{aligned} D_{KL}(P \parallel Q) &= \sum_{i} P(i) \log \frac{P(i)}{Q(i)} \\ &= H(P, Q) - H(P) \end{aligned}\]

즉, KL Divergence은 크로스 엔트로피의 값에서 엔트로피를 뺀 값이다. 크로스 엔트로피가 최소가 되는 지점은 P와 Q가 같은 것으로 이때 H(P)와 동일한 값을 가지게 된다. 따라서 KL Divergence의 최솟값은 0이 되어 평가 지표로 사용된다.

$D_{KL}(P \parallel Q)$는 $D_{KL}(Q \parallel P)$ 와 같지 않다!

Divergence는 발산이 아니라 “차이”를 의미하게 사용되었다.

numerical instability of Softmax

np.exp(2000) = np.inf이며 np.inf / np.inf = nan의 결과가 나온다.

따라사 softmax 함수의 오버 플로우 가능성을 막기 위해 최댓값을 빼주어 최댓값을 0으로 만들며 다른 값들을 전부 음수로 만든다.

\[\text{softmax}(x)_i = \frac{e^{x_i - \max(x)}}{\sum_j e^{x_j - \max(x)}}\]

이 경우 언더 플로우로 작은 값들이 0으로 간주될 수도 있지만, 이는 큰 문제가 되지 않는다.

데이터 정규화 기법

PCA: 데이터를 정규화하여 zero-center을 만들고 축을 정렬
whitening: covariance 행렬을 만듬

Attention based seq2seq

기존 encoder-decoder 구조의 RNN에서 Attention을 적용하여 모든 입력값의 hidden state를 보고 attention을 적용해 출력 값을 생성할 수 있다.

query: Decoder의 hidden state
Key, values: Encoder의 hidden state

이때, 각 decoder step의 output(hidden state)와 Attention 출력을 Concatenation 후 선형 변환을 통해 최종 예측 y를 계산할 수 있다.

coursera 강의에서 소개한 attention 모델은 query와 key를 concatenate 후 작은 NN을 거쳐 softmax를 거쳤었다.

그 외에도 transformer에서 소개한 것과 같이 위쪽 두번째 LSTM에서 이전 출력을 query로, 아래쪽 첫번째 LSTM의 값들을 key와 value로 표현하여 dot product Attention으로 사용이 가능하다.

Transformer를 사용한 분류/회귀 문제

transformer는 self-attention을 사용하여 입력 시퀀스들을 병렬로 처리해 평행하게 출력을 만들어낸다. 즉, 입력 값의 시퀀스 길이만큼 출력이 나타난다.

이때 분류나 회귀 문제 같은 하나의 출력 값이 필요하다면 어떻게 해야할까?

Token Aggregation(Average Pooling)

가장 간단한 방법은 출력 토큰 값을 전부 더해 평균을 구하는 것이다. 그리고 linear 층을 통과해 classifier 문제를 해결할 수 있다.

하지만 시퀀스의 길이가 길어질수록 이는 좋은 방법이 아니다.

Classification Token [CLS]

[CLS] 라는 아무런 값을 가지지 않는 토큰을 입력 시퀀스의 맨 앞에 집어 넣는다.

[CLS]는 어떤 의미도 가지지 않기 때문에 transformer를 거치며 치우지지 않고 전체 문장에서 원하는 값을 추출할 수 있다.

BERT

BERT, Bidirectional Encoder Representations from Transformers는 인코더만을 사용하며 MLM(Masked Language Modeling)으로 양방향의 문맥을 학습하는 transformer 모델이다.

자기지도학습(Self-supervised Learning) 방식
- MLM 기법이 자기지도학습이다.
인코더만을 사용

Input Embedding

Token Embedding: 단어의 의미 정보
- 특별한 토큰들이 존재하는데 CLS와 SEP가 있다.
  - [CLS]: 분류 토큰, 항상 맨앞에 존재
  - [SEP]: 한 문장이 끝날 때마다 존재하며 문장을 구분
Segment embedding: 단어가 몇 번째 문장에 있는지 정보
Position embedding: 단어의 위치 정보

MLM(Masked Language Modeling)

입력에서 임의로 15%의 토큰을 masking하여 없앤다.(특수한 토큰 [MASK]로 대체)

그리고 BERT가 이 문장에서 MASK 단어를 예측하도록하여 학습이 일어난다.(자기지도학습)

이 과정을 통해 BERT는 별도의 라벨링 없이 corpus들을 그대로 집어넣어 대용량 데이터를 학습할 수 있었고 시퀀스의 임베딩 표현에 있어서 뛰어난 성능을 발휘하였다.

이런 이유로 pretrained 된 BERT는 word embedding에서 기본으로 사용된다.

ViT(Vision Transformer)

이미지를 16x16 patch로 분할한다. 하나의 패치가 하나의 token으로 사용되어 transformer Encoder에 전달이 되고, 이미지를 분류하기 위해 [CLS] 토큰의 최종 출력 위에 MLP를 추가한다.

ViT는 CNN처럼 inductive bias(공간적 근접성 및 위치 불변성)를 가정하지 않기 때문에 학습에 있어서 극단적으로 큰 DataSet이 필요하다. 그렇더라도 충분한 데이터가 제공되면 CNN보다 복잡한 모델링이 가능하기 때문에 뛰어난 성능을 발휘할 수 있다.

ViT는 SOTA(State Of The Art;현재 가장 뛰어남)에 도달하였지만 학습 시간과 비용이 너무나 큰 문제가 존재한다.(8개의 TPUv3 로 300일의 학습이 진행되었다고 한다!)

[DLS]Sequence Models(3)

2024-08-16T03:30:00+00:00

Andrew Ng 교수님의 Coursera - Deep Learning Specialization 마지막 강의입니다. Encoder-Decoder, Attention, Transformer 등을 다룹니다.

Machine Translation(Encoder-Decoder)

기계 번역의 경우 입력 문장을 해석하는 Encoder 부분과 번역을 생성하는 Decoder 부분으로 나누어져있다. 최종적으로 $\hat{y}^{\langle T_y \rangle}$ 이 가 나오면 멈추게 된다.

이전 강의의 생성형 언어 모델에서는 다음 단어를 확률 분포에서 선택하였다. 하지만 Machine Translation에서는 가장 최적의 문장을 선택하고 싶기 때문에 방법이 달라진다.

하지만 Greedy하게 매 순간 다음 단어의 확률을 예측하고 최적의 단어를 선택하는 건 최적의 문장이 아닐 수가 있다. 그렇다고 모든 문장에 대한 확률을 평가하기엔 문장의 종류가 많이 때문에 Search Algorithm이 필요하다.

\[\text{argmax}_y{P(y^{<1>}, ..., y^{} | x)} = \text{argmax}_y\prod_{t=1}^{T_y}{P(y^{} | x, y^{<1>}, ..., y^{})}\]

Beam Search

모든 종류의 문장을 확인 할 수 없으니 상단의 몇 개 단어에 대해서 계속 확률을 추적한다.

각 step의 softmax 결과에서 Beam width 개수 만큼의 최상단 단어들을 기억한다. 다음 step이 되어서 기억한 단어에 대해 다음 단어를 예측하면 조합이 총 beam width x vocab size이 나온다. 여기서 다시 beam width 만큼 최상위 확률의 조합을 선택하는 것이다.

Legnth normalization

확률이 가장 높은 문장을 고르기 위해 문장의 확률을 계산하면, 각 단어의 확률을 계속 곱함으로 인해 길이가 길어질 수록 전체 문장의 확률이 낮아진다. 따라서 길이에 따른 패널티를 완화하기 위한 normalization term을 추가한다.

\[\frac{1}{T_y^\alpha}\text{argmax}_y\sum_{t=1}^{T_y}{\log P(y^{} | x, y^{<1>}, ..., y^{})}\]

$\alpha$는 heuristic한 값으로 normalization 정도를 변경한다.
- 보통 0.7 같은 값을 사용하곤 한다.

곱하다가 0으로 갈 수 있으니 log scale로 변환하였다.

Beam width

large B(=100): better result, slow
small B(=10): worse result, faster

Bleu score(Bilingual Evaluation Understudy)

모델이 생성한 문장을 평가하는 지표이다. 여러개의 좋은 출력 예시가 존재해도 사용 가능하다. 또한 이미지 caption 등의 분야에도 사용할 수 있다.

\[\text{Bleu Score} = BP \cdot \exp\left(\frac{1}{4}\sum_{n=1}^4{P_n}\right)\]

BP(Brevity Penalty): 짧은 출력에 가해지는 패널티 항
- MT_output_length > reference_output_length이면 1
- else exp(1 − MT_output_length/reference_output_length)

Bleu score on n-grams

\[P_n = \frac{\sum_{ngram \in \hat{y}} count_{clip}(ngram)}{\sum_{ngram \in \hat{y}} count(ngram)}\]

n gram이란 연속된 n 개의 단어를 말한다. 생성한 문장에서 각 n-gram들의 count 합계와 각 n-gram의 clip된 count의 합계의 비율이다.

여기서 clip된 count란, 하나의 좋은 출력 예시에서 해당 n-gram이 등장한 횟수까지로 count를 clip했다는 뜻이다.

Attention model

Encoder-Decoder구조는 마치 입력 문장들을 통째로 외우고 이해한 후, 한번에 번역해서 말하는 것과 같다. 문장이 길어지면 길어질수록 이 방식에는 한계가 생길 수 밖에 없으며, 실제 인간들도 다음 번역 단어를 적을 때 원본 문장의 특정 부분에 attention 집중해서 확인 후 번역한다.

즉, Attention 구조란 생성의 각 step에서 입력 문장의 각 단어에 Attention 정도를 다르게 두어 필요한 부분만 읽고 생성하겠다는 것이다.

즉, 입력의 어느 부분에 집중하면 될지 계산하는 Attention 파라미터가 추가로 필요하다. Attention의 내부 구조는 아래와 같다.

이전 출력 값과 함께 각 입력을 Dense layer를 거쳐 중요도를 판단한다. 각 입력에 대해 attention $\alpha$를 계산하고 softmax를 취해 각 비율에 맞게 더해 현재 step에 맞는 context를 생성한다.

e: Engeies Variable
- $s^{\langle t - 1 \rangle}$ 과 $a^{\langle t \rangle}$ 값을 인풋으로 하여 2 layer dense를 거친 값이다.
$\alpha^{\langle t, t’ \rangle}$: $y^{\langle t \rangle}$ 가 $a^{\langle t’ \rangle}$ 에 pay attention해야하는 정도
$t$: 출력 y의 timestamp
$t’$: 입력 x의 timestamp

Transformer Network

RNN과 LSTM 등의 recurrent unit을 사용하지 않고 Q, K, V를 사용해 attention을 병렬로 연산가능하도록 하여 연산 속도를 끌어올렸다

Attention + CNN style
- 기존 RNN, LSTM들은 순차 실행으로 속도가 느리지만, 마치 CNN 처럼 parellel 연산이 가능하다.

Self-Attention

\[A(q, K, V) = \sum_i \left( \frac{\exp(q \cdot k^{})}{\sum_j \exp(q \cdot k^{})} \right) v^{}\] \[\text{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}} + M\right) V\]

Q: query; 해당 단어와 관련된 어떠한 질문

K: Key; 해당 단어가 대답 가능한 질문 유형

V: Value; 해당 단어의 정보

M: optional mask

$d_k$: Key의 차원; softmax가 explode 하지 않게 막는 용도

각 단어의 워드 임베딩에 $W^q, W^k, W^v$를 곱해 q, k, v를 만든다. 이를 이용해 각 단어와 다른 단어들간의 관계를 계산해 각 단어에 pay attention에야 하는 비율을 softmax로 찾아내고 각 value를 곱해 해당 단어의 출력을 구할 수 있다.

Multi-Head Attention

Multi-Head Attention은 각 q, k, v이 head에 대해 다른 값을 갖도록 W를 추가로 곱해서 여러개의 쌍을 만들어 각 head에 대해 Attention을 계산한다.

그렇게 나온 head 값들을 concat 후 변환(W)하여 MultiHead 값을 도출한다.

결국 self-attention의 for loop라고도 볼 수 있다.

실제 구현에서는 vectorization되어 한번에 계산이 가능할 것이다.

Transformer

최종적으로 Transformer는 MHA를 사용하여 위와 같은 구조로 구현된다.

입력 문장을 word embedding

embedding에 positional Encoding 추가

Q, K, V 계산(간단하게는 동일 값 집어 넣을 수도 있음)

MHA layer 통과

Residual Connection으로 이전 값 add 후 Layer norm

dense 2개 층 통과 후 residual 및 layer norm

3, 4, 5, 6의 encoder layer N회 반복

현재까지 생성된 출력 문장을 word embedding

embedding에 positional Encoding 추가

MHA로 값 계산

마찬가지로 residual 및 layer norm

계산된 값을 Q로만 넣고 encoder 값을 V, K로 삼고 MHA

역시 residual 및 layer norm

dense 2개 통과 및 residual, layer norm

10, 11, 12, 13, 14 N회 반복

Linear(dense) 및 softmax로 다음 단어 예측

가 나올 때까지 8~16 반복

Positional Encoding

Transformer는 병렬 처리로 인해 단어의 순서 정보가 사라진다. 따라서 순서 정보를 추가하기 위해 입력 데이터에 positional encoding 값을 더해준다.
\[\begin{aligned} PE_{(pos, 2i)}&= \sin\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \\ PE_{(pos, 2i+1)}&= \cos\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \end{aligned}\]

$d$: Word Embedding의 차원(postion encoding도 같은 차원으로 나옴)

$pos$: 현재 단어의 position

$k$: 포지션 인코딩 벡터의 각 index; $i = k // 2$

이런 값을 사용하는 이유는 다음과 같다.

sin과 cos은 -1 ~ 1사이 값으로 word embedding 값을 덜 왜곡한다.

모든 pos encoding의 벡터의 norm은 동일하다.

자리가 t 만큼 떨어진 encoding 벡터의 차이의 norm도 일정하다.

회고

드디어 구글 ML 부트 캠프에서 제시했던 Coursera Deep Learning Specialization 강의를 완강하였다. 7월안에 끝마치고 싶었지만 내용이 학습 난이도가 높아 8월 중반이 되어서야 끝이 났다.

요즘 네이버 부스트 캠프도 함께 수강하며 잠잘 시간도 부족했는데 한숨 돌릴 수 있을 것 같다. 아쉬운 점은 부트 캠프 2개를 동시에 하느라 4강 중반부터는 내용 정리에 이전처럼 시간을 많이 투자하지 못했다는 것이다.

그래도 드디어 강의 수강이 끝났으니 kaggle에 집중해 도전해봐야겠다.

Thanks to

Andrew Ng 교수님이 정말 강의를 잘 하십니다. 핵심적인 내용들을 아주 직관적이고 이해하기 쉽도록 설명해주시고 Model의 수식을 일목요연하게 정리해주십니다.

덕분에 1차적으로 모델이 고안된 이유를 이해할 수 있었고, 2차적으로 모델의 세부적인 수식을 정확히 알 수 있었으며, 마지막으로 왜 이러한 수식을 사용했는지 수식의 의미를 이해할 수 있었습니다.

앞으로 누가 딥러닝을 공부하고 싶다고 한다면 망설임없이 해당 DLS 과정을 추천할것 같네요. 한달 반동안 많은 걸 배웠습니다!

Deep Learning Specialization

ps. coursera에서 제시하는 학습 기간은 17주 과정이지만 전 7주만에 들었습니다😂

[DLS]Sequence Models(2)

2024-08-11T14:18:00+00:00

Andrew Ng 교수님의 Coursera - Deep Learning Specialization 마지막 강의입니다. Natural Language Processing과 관련된 Word Embedding, Word2vec, GloVe 등을 배웁니다.

Word Embedding

각 단어를 N 차원의 공간의 특정 위치로 embedding 한다고 Word Embedding이라고 불린다.

Featurized representation

단어를 one-hot vector가 아닌 특징에 따라 벡터화 시킨다면 관련이 높은 단어를 유사하게 표현할 수 있다.

보통 50 ~ 1000 차원의 특징 벡터로 embedding 되어지고 같은 특징의 단어끼리 뭉치게 된다.

Embedding Matrix

#feature x #dictionary의 Matrix를 만든다. 이 Embedding Matrix에 특정 단어의 one-hot vector를 곱하면 해당하는 Embedding feature vector를 얻을 수 있게 된다.

실제로는 행렬 곱은 연산 비용이 커 E에 바로 인덱스로 접근해서 가져오게 된다.

가장 기본적인 word embedding의 방법은 fixed historical window를 사용해 앞 n개의 단어(예: 4개)를 보고 뒤 단어를 예측하게 하며 E를 찾아내는 것이다.

앞 context 단어들를 e vector로 변환 후, softmax로 다음에 올 가장 확률이 높은 단어를 찾기 위해 vocab 사이즈의 layer를 붙여 모델이 구성된다.

학습되는 파라미터는 E 행렬과 출력층으로 가는 weight가 있다. 이 과정을 통해 우리는 E를 만들 수 있다.

Visualizing word embeddings

t-SNE같은 걸 사용해서 2차원 공간에서 단어 분포를 시각화해 확인 할 수도 있다.

t-SNE: 비선형 차원 축소 기법

van der Maaten and Hinton., 2008. Visualizing data using t-SNE

Word2vec

Word2vec은 보다 더 간단하고 계산이 빠른 방법으로 제시되었다.

Skip-grams

fixed historical window가 아닌 Context 단어 근처의 한 단어를 예측할 목표(target)으로 삼고 학습하게 된다. 이 과정에서 몇 단어를 건너뛰고 선택이 가능하기 때문에 Skip gram 이라 불린다.

E를 적용한 embedding vector를 dense layer를 거쳐 vocab size 벡터로 변환 후 softmax를 적용해 예측한다.
\[\begin{aligned} softmax &= p(t | c) = \frac{e^{\theta_t^Te_c}}{\sum_{j=1}^{10000}{e^{\theta_j^Te_c}}} \\ e_c &= E \cdot o_c \\ \theta_t &= \text{parameter of output} \end{aligned}\]

vocab size = 10,000으로 설정함

Negative Sampling

Skip-gram 모델은 softmax 과정을 거쳐야한다. vocab 사이즈가 10,000이 아니라 백만이 넘는 수준이 된다면 softmax 계산량이 엄청나게 증가하는 단점이 존재한다. 따라서 softmax를 통한 단어 예측이 아닌, sigmoid를 이용한 특정 단어가 맞는 지 아닌지의 문제로 변경한다.

orange - juice 라는 positive 쌍이 존재할 때, 랜덤한 다른 단어를 target으로 하는 negative 쌍들을 추가로 만든다.

작은 데이터 셋을 사용시 k(negative의 개수)를 5 ~ 20

큰 데이터 셋을 사용시 k를 2 ~ 5로 하는 걸 추천한다.

\[p(y = 1 | c, t) = \sigma(\theta_t^Te_c)\]
그렇게 생성된 학습 데이터를 사용하여 위 식을 학습하게 된다.

skip-gram의 경우 한번에 모든 vocab에 대한 $\theta$를 학습하며 softmax 연산을 해야했지만, Negative Sampling을 통해 vocab size 만큼의 Binary classification 문제로 변경하여 한번에 k+1개만큼만 학습하게 된다.

어차피 우리는 Embedding Matrix가 필요한 것이므로 이렇게 해도 괜찮다.

Sampling Method

sampling 할 때 완전히 무작위로 한다면, 자주 나오는 the, of, and, a 같은 것들의 비율이 커질 것이다. 따라서 아래 수식의 hueristic 방법을 사용한다.
\[P(w_i) = \frac{f(w_i)^{3/4}}{\sum_{j=1}^{10000}{f(w_j)^{3/4}}}\]

$f$: empirical frequency

GloVe(Global Vectors for word representation)
\[\text{minimize}\sum_{i=1}^{10000}\sum_{j=1}^{10000}f(X_{ij})(\theta_i^Te_j + b_i + b'_j - logX_{ij})^2\]

$X_{ij}$: i(Context)에서 j(target)가 나타난 횟수

target을 주변으로 잡으면 $X_{ij} = X_{ji}$

target과 context가 얼마나 관련이 있는지를 나타냄

$f(X_{ij})$: $X_{ij}$가 0이면 0

$0 \cdot log0 = 0$

최소 한번 이상의 관련이 있는 단어만 신경 쓴다는 의미

위 손실함수를 최소화함으로써 Embedding Matrix를 찾을 수 있다. 자세한 원리는 복잡해서 다루지 않았지만 더욱 간단해짐을 알 수 있다.

Word2vec 보다 덜 쓰이지만 훨씬 간단해서 좋아하는 사람들이 꽤 존재한다.

Pennington et. al., 2014. GloVe: Global vectors for word representation]

[Week 1]PyTorch 기초 사용법

2024-08-09T02:00:00+00:00

pytorch의 tensor와 tensor 연산, torch.nn을 활용한 모델 구축을 다룹니다.

Tensor

import torch t = torch.tensor([2, 3, 4], dtype=torch.int32) print(t.float().dtype()) # torch.float32 print(t.dim()) # 1 print(t.size()) # or t.shape -> torch.Size([3]) print(t.numel()) # 3 (number of element) torch.sum(t) # 모든 요소의 합 torch.prod(t) # 모든 요소의 곱 torch.mean(t) # 평균 torch.var(t) # 표본 분산 torch.std(t) # 표본 표준편차

(참고)표본 표준편차의 경우 표본으로 계산한 값이기 때문에 n이 아닌 n-1로 나누어야한다 - 자유도 개념

\[S^2 = \frac{1}{n-1}\sum_{i=1}^{n}\left(x_i - \bar{x}\right)^2\]
q = torch.empty(5) # 초기화 되지 않은 텐서 생성(쓰레기 값 들어감) q.fill_(3.0) # fill_ 언더바 넣어야함 q.float() # tensor의 dtype casting 가능 # CPU tensor x = torch.IntTensor([1,2,3]) x = torch.FloatTensor([1, 2, 3]) x.to(device='cuda') # cuda, 즉, GPU 메모리로 텐서를 옮기며 gpu 사용 x.cuda() x.to('cpu') # 텐서를 다시 cpu로 옮겨옴 x.cpu() x = torch.tensor([1, 3]) y = x.clone() # tensor 복사 z = x.detach() # 마찬가지로 복사하지만 계산 그래프에서 제외된 채 복사됨 t = torch.tensor([[1, 2, 3], [4, 5, 6]]) print(t[1, :]) print(t[1, ...]) # ...으로도 : 과 같은 역할을 수행할 수 있다.

파이썬 리스트는 slicing 시 내부 값을 복사하여 새로운 메모리 공간에 리스트를 생성하지만, numpy의 배열이나 pytorch의 텐서들은 기존과 동일한 메모리 공간을 공유한다(얕은 복사).

이런 경우 slicing으로 인해 tensor가 연속적으로 할당되어 있지 않을 수 있다.

t.is_contiguous() # 연속적인지 확인 가능 # (2, X) 형태로 변경(-1을 적으면 해당 차원에 적절한 값으로 자동 부여됨) t.view(2, -1) # 불연속일 시 view 메서드는 오류 발생 t.contiguous().view(2, -1) # 연속으로 변경 후 view 적용 가능 t.reshape(2, -1) # 불연속이라도 사용 가능(이 경우 자동으로 복사가 일어남) # 복사 된 경우 수정 시 원본 tensor에 영향 X t.flatten(1, 2) # 1번째 부터 2번째 차원까지 평탄화 수행 t.transpose(1, 2) # 1, 2 차원의 축을 교환 t.squeeze() # 채널이 1개인 차원을 없애고 압축 t.unsqueeze(dim=1) # dim 1에 채널 1인 차원 추가 t = torch.tensor([[1, 2, 3]]) # 1x3 t.expand(4, 3) # 4x3 형태로 변경 # 기존 t의 메모리를 공유하며 확장된 것도 전부 view이다 # 수정 시 반복된 텐서들과 원본 텐서까지 영향이 간다 t.repeat(2, 3) # 2x9로 복사 # 기존 텐서의 값을 기반으로 새로운 텐서를 생성한다 # in-place 방식의 산술연산 a.add_(b) # _있는 함수는 a 텐서의 값을 업데이트한다 a.sub_(b) a.mul_(b) a.div_(b)

$L_p$ norm 노름
\[\|x\|_p = \left(\sum_{i=1}^{n}\left(|x_i|^p\right)^{\frac{1}{p}} \right)\]
유사도

두개의 1-D Tensor(Vector) 가 얼마나 유사한지에 대한 측도

맨해튼 유사도
\[\begin{aligned} \text{Manhattan Distance} &= \sum_{i=1}^n|x_i-y_i| \\ \text{Manhattan Similarity} &= \frac{1}{1 + \text{Manhattan Distance}} \end{aligned}\]

유사도의 최댓값은 1이다.

유클리드 유사도
\[\begin{aligned} \text{Euclidean Distance} &= \sqrt{\sum_{i=1}^n|x_i-y_i|^2} \\ \text{Euclidean Similarity} &= \frac{1}{1 + \text{Euclidean Distance}} \end{aligned}\]
코사인 유사도

두 벡터가 이루는 각도에 cosine 값을 취해 유사도를 평가한다.

벡터가 평행이면 유사도가 1, 수직이면 0의 유사도를 갖게 된다.

\[\begin{aligned} \text{Cosine Similarity} &= cos(\theta) \\ &= \frac{\mathbf{x} \cdot \mathbf{y}}{\|x\|_2\cdot\|y\|_2} \end{aligned}\]
상관 관계 분석 수식
\[r_{xt} = \frac{\sum_{i=1}^n{(x_i-\bar{x})(t_i-\bar{t})}}{\sqrt{\left(\sum_{i=1}^n{(x_i-\bar{x})^2}\sum_i^n{(t_i - \bar{t})^2} \right)}}\]
x와 t가 함께 변하는 정도를 각각 변하는 정도에 나누는 것

np.corrcoef(x, t)

최소 0.5 이상일때부터 상관관계가 존재한다고 볼수 있음

torch.nn 으로 신경망 모델 구축

데이터 전처리

from sklearn.model_selection import train_test_split # sklearn을 활용한 데이터 분할 x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.2, random_state=42) from sklearn.preprocessing import StandardScaler # sklearn을 활용한 데이터 표준화 scaler = StandardScaler() x_train = scaler.fit_transform(x_train) x_test = scaler.transform(x_test) from torch.utils.data import Dataset, DataLoader class IrisDataset(Dataset): # CustomDataset 클래스 생성 가능 def __init__(self, features, labels): self.features = features self.labels = labels def __len__(self): # 데이터 길이 반환 return len(self.features) def __getitem__(self, idx): # 특정 idx 데이터 반환 메서드까지 오버라이딩 필수 return self.features[idx], self.labels[idx] train_dataset = IrisDataset(x_train, t_train) test_dataset = IrisDataset(x_test, t_test) batch_size = 4 # 배치 크기를 4로 설정 train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True) test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

nn.Module

nn.Module을 상속받는 모듈이나 모델을 만들 수 있다. forward 순전파 함수를 구현해주어야한다.

class Model(nn.Module): def __init__(self): super().__init__() self.linear = nn.Linear(3, 5) # TODO: 생성자 만들기 def forward(self, x): y = self.linear(x) # TODO: 순전파 구현하기 return y model = Model() # GPU 설정 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model.to(device) x = x.to(device) y = y.to(device) # 손실함수 및 optimizer 생성 loss_function = nn.MSELoss() # Mean Squared Error # nn.BCELoss()는 binary cross entropy loss optimizer = optim.SGD(model.parameters(), lr = 0.01) for epoch in range(num_epochs): for batch_features, batch_labels in train_loader: outputs = model(batch_features) loss = loss_function(outputs, batch_labels) # input으로 손실값까지 계산 optimizer.zero_grad() # 이전 단계에 계산된 값 초기화 loss.backward() # 기울기 계산 optimizer.step() # parameter 업데이트

예측(테스트)

예측 시에는 gradient 계산이 불필요하며, 정규화를 했다면 예측 후 정규화 해제 작업이 필요하다.

# 표준화시 fit_transform으로 훈련 데이터에 따라 정규화를 하며 scaler_x에 정규화 파라미터를 저장하였다. # 이를 test에도 적용하기 위해 transform 함수를 사용한다. test_scaled = scaler_x.transform(test_data.reshape(-1, 1)) test_tensor = torch.tensor(test_scaled, dtype=torch.float32).view(-1, 1).to(device) model.eval() # dropout, batch norm 같은 걸 평가모드로 전환 with torch.no_grad(): # grad 계산 방지 predictions_scaled = model(test_tensor) predictions = scaler_t.inverse_transform(predictions_scaled.cpu().numpy())

[DLS]Sequence Models(1)

2024-08-08T07:00:00+00:00

Andrew Ng 교수님의 Coursera - Deep Learning Specialization 마지막 강의입니다. 이번에는 RNN을 베이스로 Language Model, LSTM, GRU 등을 다룹니다.

Vocabulary(Dictionary)

각 단어를 숫자로 변환하기 위한 사전이다. 만개의 단어가 존재하는 사전을 사용한다면 각 단어를 1 ~ 10,000으로 분배하고 사용할 때는 주로 one hot encoding을 적용해 각 단어를 (10,000 x 1) 벡터로 만들어 사용한다.

보통 30,000 개 이상의 사전을 사용한다.

대형 모델은 백만이 넘기도 한다.

RNN(Recurrent Neural Networks)

데이터를 왼쪽에서 오른쪽으로 하나씩 확인하며 이전 단어의 activation을 가져와서 계산에 사용한다. 이과정에서 파라미터는 동일하게 사용되어진다.

하지만 뒤의 단어를 보지않고 오직 앞에 만 있는 단어만 보는 단점이 존재한다. Bidrectional RNN(BRNN)이 이 문제를 해결할 수 있다.

\[\begin{aligned} a^{} &= \tanh(W_{aa} a^{} + W_{ax} x^{} + b_a) \\ &= tanh(W_a[a^{}, x^{}] + b_a) \end{aligned}\]

$W_{ax}$는 $a$를 도출해내기 위한 식에서 $x$에 곱해지는 $W$라는 표기이다.

$W_{ax}$와 $W_{aa}$를 concat해서 하나의 matrix로 만들어 간략화하였다.

$[a^{\langle t - 1\rangle}, x^{\langle t \rangle}]$의 경우 두 벡터를 상하로 쌓은 것이다.

tanh 함수를 activation으로 주로 사용한다.

Backpropagation through time

RNN에서 역전파는 시간을 거슬러 올라가며 전파된다. BTT의 약자로 불리기도 한다.
\[\begin{align} \displaystyle a^{\langle t \rangle} &= \tanh(W_{ax} x^{\langle t \rangle} + W_{aa} a^{\langle t-1 \rangle} + b_{a})\tag{-} \\[8pt] \displaystyle \frac{\partial \tanh(x)} {\partial x} &= 1 - \tanh^2(x) \tag{-} \\[8pt] \displaystyle {dtanh} &= da_{next} * ( 1 - \tanh^2(W_{ax}x^{\langle t \rangle}+W_{aa} a^{\langle t-1 \rangle} + b_{a})) \tag{0} \\[8pt] \displaystyle {dW_{ax}} &= dtanh \cdot x^{\langle t \rangle T}\tag{1} \\[8pt] \displaystyle dW_{aa} &= dtanh \cdot a^{\langle t-1 \rangle T}\tag{2} \\[8pt] \displaystyle db_a& = \sum_{batch}dtanh\tag{3} \\[8pt] \displaystyle dx^{\langle t \rangle} &= { W_{ax}}^T \cdot dtanh\tag{4} \\[8pt] \displaystyle da_{prev} &= { W_{aa}}^T \cdot dtanh\tag{5} \end{align}\]
또한, 각 단어를 이진 분류하는 모델의 경우 아래와 같은 손실함수로 정의할 수 있다.
\[L(\hat{y},y) = - \sum_{t=1}^{T_y}{y^{} \cdot log\hat{y}^{} + (1 - y^{}) \cdot log(1 -\hat{y}^{})}\]
이 손실함수의 gradient에서부터 시간(t)을 하나씩 거슬러 오르며 parameter에 역전파가 일어난다.

RNN types

one to one: 일반적인 NN과 같다.

One to many: Generation(언어 모델 등)

Many to one: 영화 리뷰글의 평점 분석

Many to many

$T_x = T_y$: 문장에서 인명 단어 분류

$T_x \neq T_y$: Machine Translation(Encoder/Decoder)

Language Modelling

RNN을 사용하여 자연어를 생성하는 언어모델을 만들 수 있다.

Tokenize

말뭉치(Corpus), 즉 학습을 위한 자연어 데이터들을 각각 token으로 만들어야한다.

사전에 포함되는 단어 외에 특별한 토큰이 존재한다.

: End Of Sentence 문장 종료 나타냄

: UNKown 사전에 없던 단어는 전부 모르는 토큰이라고 간주

10,000개 단어의 사전이라면 10,002개로 분류가 되는 것이다.

Training

훈련은 입력 데이터로 문장을 주며, 이전 단어까지 봤을 때 다음 단어를 예측하는 식으로 이루어진다.

\[P(y^{} ∣ y^{<1>},y^{<2>},…,y^{})\]
각 시간에서 이전 단어까지 입력으로 들어왔을 때 다음 단어의 확률을 평가한다.

Sampling

$\hat{y}^{\langle t \rangle}$의 softmax 확률 분포에서 랜덤하게 단어를 선택하고 이를 다음 입력으로 삼아 문장을 생성하게 된다.

의 경우 다시 샘플링을 할 수 있으며 토큰이 출현할 때까지 생성하게 된다.

Vanishing gradients

하지만 Weight가 반복적으로 곱해지면서 최초의 입력값이 소멸하는 일이 발생하게 된다.

이를 위해 고안된 방법이 LSTM과 GRU 등으로 출력과 별개로 저장되어 다음 시퀀스로 전달하는 메모리가 존재한다.

Exploding gradients의 경우 발산하며 overflow가 일어나 NaN이 생기는데 이는 상한선을 둠으로써 쉽게 해결가능하다.

GRU(Gated Recurrent Unit)

메모리 셀 c 가 존재한다.

GRU의 경우 $a^{\langle t \rangle}$의 출력이 $c^{\langle t \rangle}$ 셀의 값이다.
\[\begin{aligned} \tilde{c}^{\langle t \rangle} &= \tanh(W_c[\Gamma_r * c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_c) \\ \Gamma_u &= \sigma(W_u[c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_u) \\ \Gamma_r &= \sigma(W_r[c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_r) \\ c^{\langle t \rangle} &= \Gamma_u * \tilde{c}^{\langle t \rangle} + (1 - \Gamma_u) * c^{\langle t-1 \rangle} \\ a^{\langle t \rangle} &= c^{\langle t \rangle} \end{aligned}\]

$\tilde{c}$: 이번 출력의 후보값

Update Gate
\[\Gamma_u = \sigma(W_u[c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_u)\]
$\Gamma_u$는 시그모이드를 적용하여 0 ~ 1 사이 값을 가지게 된다. RNN과 같이 계산된 값은 후보로 존재하며, 후보와 이전 셀 값을 어느 정도씩 적용할 지 비율을 결정하게 된다.

$\Gamma_u$가 0의 경우 이전 셀 값을 그대로 적용하며, 1의 경우 계산한 후보 값을 그대로 적용한다.

Reset Gate
\[\Gamma_r = \sigma(W_r[c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_r)\]
$\tilde{c}^{\langle t \rangle}$ 계산에 사용될 이전 셀 값을 어느 정도 적용할지(잊을 지) 결정한다.

LSTM(Long-Short Term Memory)

GRU처럼 update gate 하나로 적용 비율을 결정하는 것이 아닌 별도의 forget gate가 추가된다.

또한 reset gate가 존재하지 않으며 cell 값이 그대로 출력되는 게 아닌 activation 값을 만들기 위한 별도의 output gate가 추가되었다.
\[\begin{aligned} \tilde{c}^{\langle t \rangle} &= \tanh(W_c[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_c) \\ \Gamma_u &= \sigma(W_u[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_u) \\ \Gamma_f &= \sigma(W_f[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_f) \\ \Gamma_o &= \sigma(W_o[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_o) \\ c^{\langle t \rangle} &= \Gamma_u * \tilde{c}^{\langle t \rangle} + \Gamma_f * c^{\langle t-1 \rangle} \\ a^{\langle t \rangle} &= \Gamma_o * \tanh(c^{\langle t \rangle}) \end{aligned}\]

gate들에 추가로 $c^{\langle t-1 \rangle}$을 끼워넣어 계산하는 peephole connection라는 변형도 존재한다.

Bidirectional RNN

이후의 단어를 고려하지 못하는 점을 해결하기 위해 고안되어졌다. 왼쪽에서 시작하는 Recurrent Units과 오른쪽에 시작하는 Recurrent Units이 각각 존재한다.

양방향으로 계산이 완료된후 각 단계에서 두 activation을 합쳐 최종 $\hat{y}$를 계산할 수 있다.

하지만, 모든 문장을 다 확인 한 후 연산이 가능하다는 단점이 존재해 실시간 번역 같은 곳에는 사용하기 어렵다.

Deep RNN

보통 3개 정도의 Recurrent layer면 충분히 많다. 이후에 cell 연결이 없는 일반 DNN을 위에 더 붙이기도 한다.

[DLS]Convolutional Neural Networks(2)

2024-08-04T08:41:00+00:00

Andrew Ng 교수님의 Coursera - Deep Learning Specialization 네번째 강의입니다. 객체 감지, 얼굴인식, YOLO, U-Net, Neural style transfer 등을 다룹니다.

Object localization

softmax로 이미지를 분류하는 것 만이 아닌 이미지 상의 객체 영역(bounding box)을 찾아낸다.

$b_x$, $b_y$, $b_h$, $b_w$의 출력 값이 존재하며 (bx,by)는 객체의 중심위치, bw, bh는 bounding 박스의 크기를 결정한다.

Convolution implementation of sliding windows

$b_x$, $b_y$, $b_h$, $b_w$를 사용하는 방식이 아니라 평범한 ConvNet 분류기를 사용한다.

이미지의 일부분을 잘라서 ConvNet을 적용하는 방식이지만, ConvNet을 반복 연산하는 것이 아닌 한번에 연산이 가능하다.

가령 window의 픽셀이 32x32라면 32x32로 학습시킨 ConvNet 모델의 파라미터를 가지고 영역을 찾아야하는 이미지(256x256)에 적용한다. 그러면 각 window의 위치들에 대한 예측을 한번에 수행할 수 있다.

여기서 일반적인 ConvNet과 다르게 FC layer를 출력이 1x1xC 형태가 되는 ConvLayer로 사용해서 학습을 진행해야한다.

FC Layer가 아닌 ConvLayer의 filter를 사용하기 때문에 입력 이미지가 커져도 파라미터가 사용가능하다.

훈련할때는 1x1x#class 의 Y 형태였지만 큰 이미지를 넣으면 WxHx#class의 형태로 각 window에 따라 classification 값이 나온다.

Sermanet et al., 2014, OverFeat: Integrated recognition, localization and detection using convolutional networks

YOLO(You Only Look Once)

19 제곱의 격자로 나누어 한번에 확인한다.

객체의 중심 bx, by이 해당 격자의 알맞은 Anchor boxes로 감지된다.

Redmon et al., 2015, You Only Look Once: Unified real-time object detection

intersection over union(IoU)

bounding box에 대한 평가를 한다. 예측된 영역과 실제 영역의 교집합(intersection)과 합집합(union)의 면적을 구한다. intersection size/union size를 IoU라고 부르며 0.5보다 크면 정답이라고 할 수 있다.

Non-max suppression

19의 제곱 만큼 격자가 존재하므로 한 객체를 인식한 여러 격자가 존재할 수 있다. 이때 $P_c$의 값(객체가 존재하는 확률)이 높은 것부터 채택하며 앞서 채택된 bounding box와 많이 겹치는 경우는 무시한다.

여기서 또한 IoU가 사용되며 해당 class의 기존 채택된 박스들과 IoU가 높다면 버려진다.

Anchor boxes

격자판만 사용한다면 한 격자에 단 하나의 객체만 파악이 가능하다. 여러 객체가 겹쳐 있을 수 있기 때문에 고안되었다. 상하로 길쭉한 객체와 좌우로 길쭉한 객체에 대해 각각 Anchor box를 설정해두면 적절한 anchor box로 들어가 여러개의 객체를 한 격자내에서 식별 가능해진다.

도입한 box 개수 만큼만 감지할 수 있다는 한계가 있다.

박스의 크기와 개수는 데이터에 대해 탐색적으로 설정한다.

R-CNN

이미지의 Region에 대해 각각 ConvNet을 적용하는 것이다. 이미지를 먼저 segmentation 알고리즘으로 영역을 분리하고 해당 영역에 대해 CNN으로 분류를 한다.

R-CNN의 장점은 정사각형의 window가 아닌 segmentation으로 적절한 region에 대해 알맞은 직사각형으로 분류할 수 있다는 것이다.

YOLO와 R-CNN은 각각 장단점이 있다.

U-Net(Image Segmentation)

ConvNet을 통해 이미지의 각 픽셀을 분류하여 형태를 완전히 찾아낸다. YOLO의 경우 bounding box였지만 U-Net은 segmentation이다.

특징을 추출하기 위한 downsampling과 각 픽셀에 대해 분류하기 위한 upsampling 단계가 있다.

여기서의 skip connection은 ResNet과 다르게 더하는 게 아닌 concat이다.

마지막 출력 층은 클래스의 개수 만큼 채널이 존재해야한다.

(참고)원핫 인코딩이 아닌 각 클래스, 정수로 되어 있을 때는 SparseCategoricalCrossentropy를 사용하면 편리하다

Transposed Convolution

Conv 연산으로 필터를 적용하면 크기가 줄어든다. 물론 여기서는 pooling으로 줄이긴 하지만 기존 convolution 연산으로는 이미지 크기를 늘릴 수가 없다.

transposed convolution이라는 색다른 연산을 사용함으로써 이미지 크기를 키운다.

Face recognition

각 사람의 얼굴을 인식하여 어떤 사람인지 분류하는 문제이다. 기존 CNN 구조를 사용해도 되겠지만 각 사람에 대한 얼굴 사진 데이터가 수많이 필요하고, 사람이 추가되거나 빠질 시 네트워크를 재학습 시켜야 할 수 있다.

이러한 이유로 약간 다른 구조의 네트워크가 필요하다.

One shot Learning

하나의 데이터로 분류를 할 수 있도록 학습하는 걸 의미한다. 사람 얼굴 사진 한장으로 이사람이 맞는지 파악한다.

분류를 하는 모델이 아닌 두 개의 사진에서 각각 특징을 추출하고 특징의 유사도(similarity funtion)를 평가하게 만든다. 동일한 사람의 경우 특징의 차이가 0에 가깝게, 다른 사람의 경우 차이가 크게 만든다.

Siamese network(샴 네트워크)

기존의 CNN 분류 모델을 중간 layer까지 잘라 같은 파라미터를 사용하도록(쌍둥이) 하여 두 이미지를 통과시킨다.

추출된 특징으로 거리를 계산한다.

Triplet Loss
\[\mathcal{J} = \sum^{m}_{i=1} max\left(\left[ \| f(A^{(i)}) - f(P^{(i)}) \|_2^2 - \| f(A^{(i)}) - f(N^{(i)}) \|_2^2 + \alpha \right], 0\right)\]

A(Anchor): 대상

P(Positive): 대상의 또 다른 이미지

N(Negative): 대상이 아닌 이미지

$f(A)$는 CNN을 통과한 A의 특징 벡터이다.

$\alpha$는 threshold이자 margin으로 최소한 margin 만큼 특징 차이가 나야 하게 강제한다.

margin이 없으면 A, P, N에 대해 전부 0이 되어도 통과가 되어버린다.

Neural style transfer

신경망으로 이미지의 style을 변경하여 생성한다. 기존 처럼 모델의 parameter를 Gradient Descent 하는 것이 아닌, 생성되는 이미지의 픽셀을 Gradient Descent 하게 된다.
\[J(G) = \alpha J_{content}(C,G) + \beta J_{style}(S,G)\]

C: Content image

S: Style image

G: Generated image

Content loss

ConvNet의 중간 레이어(적당한 특징)의 활성을 비교한다.
\[J_{content}(C,G) = \frac{1}{4 \times n_H \times n_W \times n_C}\sum _{ \text{all entries}} (a^{[l](C)} - a^{[l](G)})^2\]
Style Matrix(Gram Matrix)

히든 레이어의 채널들의 상관관계(corelation)를 style이라 정의하고 이를 비교할 것이다. 먼저 스타일(Gram)은 아래와 같이 계산된다.

\[\mathbf{G}_{gram} = \mathbf{A}_{unrolled} \mathbf{A}_{unrolled}^T\]

$G_{(gram)ij}$ : i번째 채널과 j 번째 채널의 상관관계

Style loss
\[J_{style}^{[l]}(S,G) = \frac{1}{4 \times {n_C}^2 \times (n_H \times n_W)^2} \sum _{i=1}^{n_C}\sum_{j=1}^{n_C}(G^{(S)}_{(gram)i,j} - G^{(G)}_{(gram)i,j})^2\]
한 레이어에 대한 style loss는 위와 같이 계산된다. 이를 하나의 레이어만이 아닌 여러 레이어에 대해 적용하여 최종 loss를 계산한다.
\[J_{style}(S,G) = \sum_{l} \lambda^{[l]} J^{[l]}_{style}(S,G)\]

$\lambda$는 각 레이어의 비율로 합쳐서 1이 나오는 하이퍼 파라미터이다.

$\sum_{l}^L\lambda^{[l]} = 1$