from Karte,

[딥러닝 기초 복습 메모] #1. 딥러닝에서의 MLE & Gradient Descent & Cross Entropy 본문

study log/Deep Learning

[딥러닝 기초 복습 메모] #1. 딥러닝에서의 MLE & Gradient Descent & Cross Entropy

karte 2020. 11. 30. 22:41

* 포스팅을 발견하신 분들께: 딥러닝의 기반이 되는 내용을 다시 되짚어 보기 위해 작성한 간단한 메모 형식의 포스팅인 점 유의하시기 바랍니다.

* 내용 상 오류를 발견하신다면 댓글로 알려주세요. 바로 수정하겠습니다. 

 

 

드디어 정형 데이터가 아닌, 자연어 및 이미지 데이터를 다루기 위한 첫 발을 떼려고 한다. 현재 수준은 tensorflow 를 이용하여 매우 간단한 회귀/분류 코드를 작성할 수 있는 수준이라 앞으로 갈 길이 멀다. 

 

그래서 먼 길을 떠나기 전에 먼저 딥러닝을 바라보는 관점을 단단히 잡기 위해 간단하게 메모를 작성했다. 

 


딥러닝 = 인간의 신경망을 모방한 최신의 모델링 기법?

 

부끄럽지만 데이터 사이언스고 딥러닝이고 전혀 몰랐던 시절 나도 이렇게 생각했었다. 용어가 fancy 해보여서 딥러닝하면 무적의 최신 기법이라고만 생각했었는데, 정말 반성한다. 딥러닝은 이미지, 자연어, 음성 데이터와 같이 전통적이지 못한 데이터를 처리하기 위한 철처히 통계와 수학에 기반을 두고 있는 도구이기 때문이다. (이에 대한 설명은 인터넷에 검색만 해도 상당히 많은 자료가 나오기 때문에 생략한다.)

 

그렇다면, 통계적 관점에서 딥러닝의 목적은 무엇일까? 다시 말해서, 통계적 관점에서 딥러닝의 목적goal을 한 마디로 서술한다면? 바로 미지의 확률 분포 함수를 모사 (approximate) 하는 것이다. 

 

어떤 확률 분포 함수가 있다고 했을 때, 우리가 궁금한 것은? 바로 '모수 parameter (표기: θ)' 이다. 데이터의 분포가 어떤 확률 분포 함수를 따르는지 알아도, 모수를 특정할 수 없다면 활용하기가 매우 힘들어지므로, 확률 분포 함수, 즉 모델을 사용하기 위해서는 데이터를 가장 잘 설명할 수 있는 파라미터를 찾아야 한다. 

 

그 파라미터를 찾을 때 쓰이는 방법이 '최대우도추정 Maximum Likelihood Estimation' 이다. 이 과정에서 θ 의 값을 계속 바꾸어야 하는데, 이 때  '경사 하강법 Gradient Descent' 을 통해 θ 를 계산하면서 업데이트 하는 것이다. 

 

그럼 크로스 엔트로피 Cross Entropy 는 뭘까? 앞서 딥러닝의 목적은 모종의 확률 분포 함수를 최대한 비슷하게 따라하는 것이라고 했다. 이것을 가능케 하는 방법은 바로 윗 문단에서 설명한 것처럼 MLE 를 이용하여 파라미터를 추정하는 것 외에 또 하나가 있는데, 바로 데이터가 따를 것으로 예상되는 진짜 분포와 모델이 추정한 확률 분포를 최대한 비슷하게 만드는 것이다. 이 때 두 확률 분포의 차이가 얼마나 되는지를 정량화할 때 '크로스 엔트로피 Cross Entropy' 개념이 사용되며, 이를 최소화하는 파라미터가 최적의 파라미터가 되는 것이다. (크로스 엔트로피 대신 '쿨백-라이블러 발산 KL - Divergence' 를 사용할 수도 있다.)

 


이상 [딥러닝 기초 복습 메모] #1 을 마무리!

 

Comments