순전파

순전파(Forward Propagation)는 딥러닝 인공지능 알고리즘에서 입력 데이터를 주고 여러 층의 신경망을 따라 쭉 신호를 전파하면서 최종 출력을 만들어 가는 과정을 말한다. 순방향 전파, 전진방향 전파라고도 한다.^[1] 반대말은 역전파이다.

개요[편집]

인공지능 신경망 딥러닝의 구조

인공지능 딥러닝 알고리즘에서 순전파((Forward Propagation) 과정과 가중치 변수(W)들

순전파는 입력층에서 전달 되는 모든 값이 은닉층을 통해 출력층까지 전달되는 방식이다. 입력층 -> 은닉층 -> 출력층 순으로 순서대로 다음 층으로 이동. 순전파는 순서대로 진행되며 마지막에 결과 값이 나오기 때문에 결과를 이용해 가중치 조절을 할 수 없다.^[2]

활성화 함수, 은닉층의 수, 각 은닉층의 뉴런 수 등 딥 러닝 모델을 설계하고나면 입력값은 입력층, 은닉층을 지나면서 각 층에서의 가중치와 함께 연산되며 출력층으로 향한다. 그리고 출력층에서 모든 연산을 마친 예측값이 나오게 된다. 이와 같이 입력층에서 출력층 방향으로 예측값의 연산이 진행되는 과정을 순전파라고 한다.

딥러닝 신경망은 여러 개의 층(Layer)으로 이루어져 있는데, 그 층 숫자가 증가할수록 성능과 정확성이 높아진다. 그래서 "깊다"라는 의미를 가진 '딥'(Deep)이라는 표현이 나온다. 다른 말로 딥러닝을 심층학습(深層學習)이라고 부르기도 한다. 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 추출해내는 기계학습(Machine Learning) 알고리즘의 일종이다.

딥러닝에는 입력층(Input layer)과 출력층(Output layer) 사이에 여러 개의 은닉층(Hidden layer)들로 이루어져 있다. 이 딥러닝은 복잡한 비선형 관계(Non-linear relationship)들을 모델링할 수 있다.

뇌의 동작은 비선형적이기 때문이다. 이 딥러닝 알고리즘에는 각 층에 설치된 수천 혹은 수천 만개의 신경세포(Node)가 서로 연결망의 선으로 연결되어 있다. 그리고 이 연결망을 통해서 각 층을 지나면서 출력이 전달될 때, 가중치(w, weight)가 곱해진다. 이때 각 신경세포(Node)에서 입력 값이 합해지게 되는데, 그 합이 일정 값이 넘으면 다음 단계로 출력으로 전달된다. 그래서 딥러닝 신경망에는 수많은 변수(Parameters)가 존재한다. 이러한 변수들은 인공지능이 빅데이터를 이용해 학습하면서 정해간다. 다름 아니라 이 변수들을 정해가는 과정을 학습이라고 한다.

이 학습과정에서 최종 출력 값인 결과와 미리 정해진 정답과 비교하면서 변수를 학습해 간다. 예를 들어 인공지능이 사진을 판독한다면, 입력이 사진이고 최종 출력이 판독이다. 사진을 넣어 주면서 결과를 뽑아 호랑이인지 고양이 인지 판정하게 되는데, 이 과정을 전진방향 전파 학습(Forward Propagation) 이라고 한다. 이 결과에 오차가 생겼을 때, 그 결과의 차이를 보고, 다시 꺼꾸로 변수를 정해가는 과정을 역방향 전파 학습(Back Propagation) 이라고 한다. 이처럼 결과 오류의 차이를 이용해 변수를 정해서 전해간다. 이렇게 답을 알려주면서 학습하는 방법을 지도학습(Supervised Learning) 이라 한다.^[3]

순전파 계산[편집]

순전파 계산

주어진 값이 오른쪽 그림과 같을 때 순전파를 진행해보면 그림에서 소수점 앞의 0은 생략하였다. 예를 들어 .25는 0.25를 의미한다. 파란색 숫자는 입력값을 의미하며, 빨간색 숫자는 각 가중치의 값을 의미한다. 아래 진행하는 계산의 결과값은 소수점 아래 여덟번째 자리까지 반올림하여 표기한다.

각 입력은 입력층에서 은닉층 방향으로 향하면서 각 입력에 해당하는 가중치와 곱해지고, 결과적으로 가중합으로 계산되어 은닉층 뉴런의 시그모이드 함수의 입력값이 된다. $z1$ 과 $z2$ 는 시그모이드 함수의 입력으로 사용되는 각각의 값에 해당된다.

$z_{1}=W_{1}x_{1}+W_{2}x_{2}=0.3\times 0.1+0.25\times 0.2=0.08$

$z_{2}=W_{3}x_{1}+W_{4}x_{2}=0.4\times 0.1+0.35\times 0.2=0.11$

$z1$ 과 $z2$ 는 각각의 은닉층 뉴런에서 시그모이드 함수를 지나게 되는데 시그모이드 함수가 리턴하는 결과값은 은닉층 뉴런의 최종 출력값이다. 식에서는 각각 $h1$ 과 $h2$ 에 해당되며, 아래의 결과와 같다.

$h1$ = $sigmoid(z1)$ =0.51998934

$h2$ = $sigmoid(z2)$ =0.52747230

$h1$ 과 $h2$ 이 두 값은 다시 출력층의 뉴런으로 향하게 되는데 이때 다시 각각의 값에 해당되는 가중치와 곱해지고, 다시 가중합 되어 출력층 뉴런의 시그모이드 함수의 입력값이 된다. 식에서는 각각 $z3$ 과 $z4$ 에 해당된다.

$z3$ = $W5$ $h1$ + $W6$ $h2$ =0.45× $h1$ +0.4× $h2$ =0.44498412

$z4$ = $W7$ $h1$ + $W8$ $h2$ =0.7× $h1$ +0.6× $h2$ =0.68047592

$z3$ 과 $z4$ 이 출력층 뉴런에서 시그모이드 함수를 지난 값은 이 인공 신경망이 최종적으로 계산한 출력값이다. 실제값을 예측하기 위한 값으로서 예측값이라고도 부른다.

$o1$ = $sigmoid(z3)$ =0.60944600

$o2$ = $sigmoid(z4)$ =0.66384491

이제 해야할 일은 예측값과 실제값의 오차를 계산하기 위한 오차 함수를 선택하는 것이다. 오차(Error)를 계산하기 위한 손실 함수(Loss function)로는 평균 제곱 오차 MSE를 사용한다. 식에서는 실제값을 target이라고 표현하였으며, 순전파를 통해 나온 예측값을 output으로 표현하였다. 그리고 각 오차를 모두 더하면 전체 오차 $Etotal$ 가 된다.

$Eo1$ = ${\frac {1}{2}}$ ( $targeto1$ − $outputo1$ )2=0.02193381

$Eo2$ = ${\frac {1}{2}}$ ( $targeto2$ − $outputo2$ )2=0.00203809

$Etotal$ = $Eo1$ + $Eo2$ =0.02397190

행렬의 곱셈을 이용한 순전파(Forward Propagation)[편집]

그림과 같은 인공 신경망이 있다고 할 때 주어진 인공 신경망을 케라스로 구현해본다면 아래와 같이 짧은 코드로 구현할 수 있다.

인공 신경망

from keras.models import Sequential
from keras.layers import Dense
model = Sequential() # 층을 추가할 준비
model.add(Dense(8, input_dim=4, init='uniform', activation='relu'))
# 입력층(4)과 다음 은닉층(8) 그리고 은닉층의 활성화 함수는 relu
model.add(Dense(8, activation='relu')) # 은닉층(8)의 활성화 함수는 relu
model.add(Dense(3, activation='softmax')) # 출력층(3)의 활성화 함수는 softmax

위의 코드의 주석에서 ( ) 괄호 안의 값은 각 층에서의 뉴런의 수를 의미하며 입력층부터 출력층까지 순차적으로 인공 신경망의 층을 한 층씩 추가하였다. 케라스를 사용하면 이렇게 간단하게 딥 러닝 모델을 구현할 수 있다.

인공 신경망에서 입력층에서 출력층 방향으로 연산을 진행하는 과정을 순전파(Forward Propagation)라고 한다. 다르게 말하면 주어진 입력으로부터 예측값을 계산하는 과정을 순전파라고 한다.

1) layer 1의 행렬 크기 추정하기

우선 각 층을 기준으로 입력과 출력의 개수를 정리하면 다음과 같다.

입력층 : 4개의 입력과 8개의 출력
은닉층1 : 8개의 입력과 8개의 출력
은닉층2 : 8개의 입력과 3개의 출력
출력층 : 3개의 입력과 3개의 출력

여기서는 편의상 입력층을 layer 0, 은닉층 1을 layer 1, 은닉층 2를 layer 2, 출력층을 layer 3라고 한다. 이제 위의 정보를 가지고 층마다 생기는 가중치와 편향 행렬의 크기를 추정해본다. 벡터와 행렬 연산 챕터에서 언급하였듯이 가중치 행렬에 입력 행렬을 곱하는 경우와 입력 행렬에 가중치 행렬을 곱하는 경우가 있겠으나, 여기서는 후자를 가정한다. 또한 배치 크기는 1로 하며 이 경우 layer 1에서 처음 입력으로 들어오는 입력 행렬 $X$ 의 크기는 1 × 4로 행벡터에 해당된다. (만약 미니 배치 학습을 가정할 경우, $X$ 의 크기는 배치의 크기 × 4가 된다.)

입력 행렬, 가중치 행렬, 편향 행렬, 출력 행렬은 다음과 같은 크기 관계를 가진다.

Xm×n×Wn×j +Bm×j=Ym× j

layer 1의 입력 행렬 $X$ 의 크기는 1 × 4이다. layer 1의 출력은 8개이므로, 그에 따라 출력 행렬 Y의 크기는 1 × 8이 된다.

X1 × 4×Wn × j+Bm × j=Y1 × 8

그런데 가중치 행렬 W의 행은 입력 행렬 X의 열과 같아야 하므로 아래와 같다.

X1 × 4×W4 × j+Bm × j=Y1 × 8

편향 행렬 B는 출력 행렬 Y의 크기에 영향을 주지 않으므로 편향 행렬 B의 크기는 출력 행렬 Y의 크기와 같다.

X1 × 4×W4 × j+B1 × 8=Y1 × 8

가중치 행렬 W의 열은 출력 행렬 Y의 열과 동일해야 한다.

X1 × 4×W4 × 8+B1 × 8=Y1 × 8

layer 1의 가중치 행렬과 편향 행렬의 크기를 구했습다. 이제 layer 1의 출력 행렬 Y는 layer 2에서는 입력 행렬 X가 된다.

2) layer 2와 layer 3의 행렬 크기 추정하기

이를 반복하면 layer 2와 layer 3에서의 가중치 행렬과 편향 행렬의 크기를 구할 수 있다. 비록 은닉층과 출력층에 활성화 함수가 존재하지만 활성화 함수는 행렬의 크기에 영향을 주지 않는다.

layer 2 : X1 × 8×W8 × 8+B1 × 8=Y1 × 8

layer 3 : X1 × 8×W8 × 3+B1 × 3=Y1 × 3

인공 신경망이 입력층에서 은닉층을 지나 출력층에서 예측값을 계산하기까지의 과정을 행렬 연산으로 가정하고 행렬의 크기를 추정해보았다. 이와 같이 순전파를 진행하고 예측값을 구하고나서 이 다음에 인공 신경망이 해야할 일은 예측값과 실제값으로부터 오차를 계산하고, 오차로부터 가중치와 편향을 업데이트하는 일이다. 즉, 인공 신경망의 학습 단계에 해당된다. 이때 인공 신경망은 순전파와는 반대 방향으로 연산을 진행하며 가중치를 업데이트하는데, 이 과정을 역전파(BackPropagation)라고 한다.^[4]

동영상[편집]

행렬을 통한 인공 신경망의 순전파 과정을 보여주는 영상이다. 아래의 영상에서는 3개의 데이터를 한 꺼번에 연산하며 입력 행렬 X의 행이 3이 되는 것이다. 하지만 행렬의 크기가 결정되는 원리는 달라지지 않는다.

각주[편집]

↑ 김정호 카이스트 교수, 〈[김정호의 4차혁명 오딧세이 인공지능은 타임머신을 탈 수 있다]〉, 《뉴스핌》, 2019-03-18
↑ Gilly, 〈순전파 & 역전파〉, 《네이버블로그》, 2018-10-29
↑ 김정호 카이스트 교수, 〈[김정호의 4차혁명 오딧세이 설명 불가능한 인공지능 작동 원리의 비밀]〉, 《뉴스핌》, 2019-01-07
↑ 〈2) 인공 신경망(Artificial Neural Network) 훑어보기 - 딥 러닝을 이용한 자연어 처리 입문〉, wikidocs, 2019-10-06

참고자료[편집]

김정호 카이스트 교수, 〈[김정호의 4차혁명 오딧세이 인공지능은 타임머신을 탈 수 있다]〉, 《뉴스핌》, 2019-03-18
Gilly, 〈순전파 & 역전파〉, 《네이버블로그》, 2018-10-29
김정호 카이스트 교수, 〈[김정호의 4차혁명 오딧세이 설명 불가능한 인공지능 작동 원리의 비밀]〉, 《뉴스핌》, 2019-01-07
2) 인공 신경망(Artificial Neural Network) 훑어보기 - 딥 러닝을 이용한 자연어 처리 입문〉, wikidocs, 2019-10-06

같이 보기[편집]

이 순전파 문서는 인공지능 모델에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 서비스, 인공지능 모델^□^■^⊕, 인공지능 데이터, 인공지능 개발, 인공지능 기술, 인공지능 로봇, 인공지능 기기, 인공지능 기업, 인공지능 인물, 인공지능 역사

인공지능 모델	CAG • FFN • GPT • GRU • GTE • GTR • ILSVRC • LAM • LMM • MCP • MHSA • NER • RAG • RoBERTa • SARSA • Seq2Seq • SLM • T5 • TTT • Vec2Vec • VGG넷 • Word2Vec • 거대언어모델(LLM) • 결정트리모델 • 그래프 신경망(GNN) • 다층퍼셉트론 • 단층퍼셉트론 • 레즈넷(ResNet, 잔차신경망) • 랜덤 포레스트 • 르넷(LeNet) • 모바일넷 • 방사신경망 • 버트(BERT) • 베이지안 신경망 • 볼츠만 머신 • 비전 트랜스포머(ViT) • 비트넷 • 사이클 GAN • 상태공간모델(SSM) • 생성대립신경망(GAN) • 생성형 AI • 샴 네트워크 • 순환신경망(RNN) • 스타일 GAN • 신경 • 신경기계번역(NMT) • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 알렉스넷 • 앙상블 • 언어모델 • 예측모델 • 워드넷 • 이미지넷 • 인공신경망(ANN) • 장단기기억 네트워크(LSTM) • 제한 볼츠만 머신(RBM) • 전방전달신경망(FFNN) • 카페 • 코헨 자기조직 신경망 • 통계적 기계번역(SMT) • 트랜스포머 • 퍼셉트론 • 합성곱 신경망(CNN) • 홉필드 네트워크

인공지능 알고리즘	DDPG • DQN • K-NN 알고리즘 • K-평균 클러스터링 • RMSprop • VAE • VLA • 결정이론적 메타추론 • 결정트리 • 경사하강법 • 관계형 네트워크(RN) • 기울기 • 기울기 소실 • 기울기 폭발 • 뉴런 • 동적 계획법 • 디퓨전 모델 • 랜덤포레스트 • 레이어 정규화 • 마스킹 • 매개변수 • 멀티헤드 셀프어텐션 • 멀티헤드 어텐션 • 멀티헤드 잠재 어텐션(MLA) • 메타추론 • 모멘텀 • 미니배치 경사하강법 • 반영식 아키텍처 • 배깅 • 배치 경사하강법 • 배치 정규화 • 병렬분산처리(PDP) • 복잡도 • 부스팅 • 분산 샌드박스 • 셀프어텐션 • 수시 알고리즘 • 수퍼얼라인먼트 • 순전파 • 스태킹 • 아담(Adam) • 아담W • 양방향 비고정값 암호 체계(TSID) • 어텐션(주의 메커니즘) • 에이전트체인(CoA) • 역전파 • 역치 • 온도 • 욜로(YOLO) • 은닉층 • 인공지능(AI) • 인코더-디코더 어텐션 • 입력층 • 자비에르 초기화 • 잔차연결 • 잠재 디리클레 할당(LDA) • 잠재의미분석 • 장기의존성문제 • 정렬위장 • 주성분 분석(PCA) • 초기가중치 • 초매개변수(하이퍼 파라미터) • 출력층 • 층위 • 텍스트마이닝 • 파이 • 페이스넷 • 학습률 • 허 초기화(He 초기화) • 확률분포 • 확률적 경사하강법

인공지능 함수	GELU 함수 • ReLU 함수(렐루함수) • 가중치 • 가중합 • 거리 • 결과값 • 계단함수(스텝함수) • 교란변수 • 균등분포 • 노름 • 다중회귀분석 • 독립변수 • 로그함수 • 로지스틱 함수 • 로짓변환 • 리키 ReLU 함수 • 맨해튼 거리 • 몬테카를로 방법 • 미분 • 미시함수 • 미적분 • 민코프스키 거리 • 베이즈 정리 • 베이지안 추론 • 볼록함수 • 분산 • 비선형함수 • 빅-오 표기법 • 사인(sin) • 사전확률 • 사후확률 • 삼각함수 • 선형변환 • 선형함수 • 소프트맥스 함수 • 손실 • 손실함수 • 스위시 함수 • 시그모이드 함수 • 안장점 • 에너지 함수 • 연결함수(Concat 함수) • 연속변수 • 오목함수 • 웨이블릿 변환 • 유클리드 거리 • 이산변수 • 입력값 • 자카드 거리 • 적분 • 전이함수 • 정규분포 • 정규화 • 종속변수 • 지수함수 • 체비셰프 거리 • 체인룰 • 최소제곱법 • 출력값 • 코사인(cos) • 코사인 거리 • 코사인 유사도 • 탄젠트(tan) • 탄젠트 함수 • 통계 • 편미분 • 편향 • 평균절대오차 • 평균제곱근오차 • 평균제곱오차 • 표준편차 • 푸리에 변환 • 하이퍼볼릭 탄젠트 함수(tanh) • 합성곱 • 합성함수 • 확률 • 활성화 함수 • 후버손실함수

위키 : 인공지능, 개발, 자동차, 교통, 아시아, 세계, 산업, 기업, 단체, 업무, 생활, 지도, 블록체인, 암호화폐, 인물, 행사, 일반

[1] 김정호 카이스트 교수, 〈[김정호의 4차혁명 오딧세이 인공지능은 타임머신을 탈 수 있다]〉, 《뉴스핌》, 2019-03-18

[2] Gilly, 〈순전파 & 역전파〉, 《네이버블로그》, 2018-10-29

[3] 김정호 카이스트 교수, 〈[김정호의 4차혁명 오딧세이 설명 불가능한 인공지능 작동 원리의 비밀]〉, 《뉴스핌》, 2019-01-07

[4] 〈2) 인공 신경망(Artificial Neural Network) 훑어보기 - 딥 러닝을 이용한 자연어 처리 입문〉, wikidocs, 2019-10-06

[1]

[2]

[3]

[4]

위키원

이름공간

변수

보기

더 보기

검색

순전파

목차