from Karte,

느릿느릿 딥러닝 논문 읽기 feat. 취준생/Job Description (목록 ver_1.5) 본문

study log/Deep Learning

느릿느릿 딥러닝 논문 읽기 feat. 취준생/Job Description (목록 ver_1.5)

karte 2020. 10. 1. 21:56

그동안 계속 정형 데이터 분석에 쪽에 중심을 두고 (사실 정형 데이터만 보았다고 해도 과언이 아니다..) 공부를 해왔다. 정형 데이터만 봐도 공부할 거리는 넘쳤고 충분히 재밌었다...!

이미지 데이터, 자연어 (영어) 데이터도 다뤄 본 적은 있지만 정말 빙산의 일각에 붙은 먼지 한 톨을 한쪽 눈 감고 본 정도이기도 했고 말이다. 

그런데 최근 데이터 분석 국비 지원 교육을 수강하면서 여러 프로젝트를 보고 직접 주제 구상도 하면서 이미지/텍스트 데이터를 '제대로' 다룰 수 있게 된다면 정형 데이터와 시너지 효과를 일으키게 할 수 있겠다는 걸 깨달았다.

그리고 개인적으로 도전해보고 싶은, 이미지 데이터를 활용해야 하는 프로젝트가 생겨서 비정형 데이터를 다루기에 용이한 도구인 딥러닝에 대해 공부를 해야겠다는 생각이 들었다. 

그리고 데이터분석/ML 엔지니어 채용 공고를 보면 '논문을 읽고 직접 구현을 해본 경험' 을 자격 요건 중 우대 사항으로 기재한 곳들이 많아 도움이 될 것 같기도 했다!

 

그래서 내 관심 분야와 관련된, 느리더라도 꼭꼭 이해하고픈 논문들의 목록을 작성해 보기로 했다. 

스스로 생각하기에도 아직 딥러닝 논문들을 읽을 단계는 절대 아닌 듯 하나, "꼭 알맞은 때란 영원히 오지 않는다." 는 말처럼 한 편으론 딥러닝 개념을 공부하고 또 다른 편으론 수집을 하면서 읽어 나가려고 한다. 🐣

 


이미지 생성 및 변환 관련 논문들

1. A Neural Algorithm of Artistic Style, Gatys et al (2015)

 

2. Image Style Transfer Using Convolutional Neural Networks, Gatys et al (2016)

 

3. Generative Adversarial Nets, Goodfellow et al (2014)

 


ver_1 2020.09.26 작성

 

 

자연어 처리 관련 논문들

 

잠시 나의 NLP 관련 일화부터 되짚어 보자 ...

 

일전에 6개월 간 학부 연구생으로 일을 한 적이 있다. 처음에 주어졌던 과제는 시계열 모델의 일종인 NARX ( Nonlinear Autoregressive Network with Exogenous inputs ) 에 대한 공부를 하고, 학습 내용을 요약해서 랩실에 있는 다른 석사 및 학부 연구생 분들과 공유를 하는 것이었다. 그런데 중간에 프로젝트 주제가 바뀌었고 그 후 랩실을 나갈 때까지 아마존 홈쇼핑에서 구매자 리뷰를 수집해서 단어 수 count 기반으로 긍정/부정도를 계산하는 업무를 맡았었다. 그렇게 처음으로 자연어 처리 영역에 손가락 하나를 담가 보았다. 그 때는 정말 아는 게 없어서 '이제 자연어 처리 해봤다' 고 생각을 했는데, 이제는 정말 우물 안 개구리다는 걸 안다. 

 

자연어 처리에도 sentiment analysis, question-answering, text summarization, text classification, machine translation 등 정말 많은 세부 분야가 있고 각 분야의 지형 또한 어마무시한 속도로 변화 중이라 여기 목록에 있는 논문들은 이제 기초 수준이라고 불릴 수도 있다. 그렇지만 기초를 건너뛰고서는 어디에도 못 가니 차근 차근 읽어 보려고 한다. 목록에 있는 논문은 '반드시 읽어야 하는 자연어 처리 논문 100 편 ( 100 Must-Read NLP Papers ) ' 에서 우선적으로 3편을 뽑았다.

 

1. Text Classification from Labeled and Unlabeled Documents using EM. Machine Learning,

Kamal Nigam et al (1999)

 

2. Deep contextualized word representations, Matthew E. Peters et al (2018)

 

 → 학부 연구생 할 때 구매자 리뷰에 사용된 단어를 긍정/부정으로 매핑하면서 어려웠던 점이 바로 '맥락이 고려되지 않는다는 것이었다. 예를 들면 아래 문장과 같은 리뷰가 있다고 하자.

'The sound is pretty good but it's only good thing about it. The battery broke just 3 days after i got the product. NICE!' 

해당 리뷰에서 사용된 nice 라는 단어는 문맥 상 비꼬는 의미에서 사용되어 부정의 의미를 내포하고 있지만, 단어 사전 기반의 count 방식으로 리뷰의 긍/부정도를 평가할 경우 긍정적인 단어로 분류되는 문제가 있다. 아직 논문을 제대로 보진 않았지만 제목에 contextualized 가 들어가는 것을 보니 내가 겪은 문제와 관련이 있을 것 같아 목록에 올렸다.

 

3. Understanding LSTM Networks, Christopher Olah (2015)

 

 

ver_1.5 2020.10.01 업데이트

Comments