AI 논문 스터디 #1
스터디장 : 조완식(M)
작성자 : 조완식(M)
참여자 : 조완식(M), 조우연(M), 홍소연(M), 양지승(M)
본 글은 GDSC 1기, 11월 부터 4주간 진행한 AI 논문 스터디에 관한 기록을 담고 있습니다.
스터디의 목적부터 서로간 잘 짜여진 발표와 학습보다는 각자 논문에 관한 개인적인 정리 기회 및 AI 하위 분야의 다양한 항목을 접하고자 함에 있기 때문에, 서로 발표에 관한 내용 기록보다는 스스로의 최대한 naive한 comment 수준의 정리만이 기록되어 있습니다.
AI Paper Study
11월, AI Paper Study를 시작했다.
본 스터디는 다음과 같은 목적성 및 계획을 가지고 시작했다.
인공지능의 다양한 분야의 논문들을 읽고 공부하고 공유하는 시간을 가져보고자 합니다!
발표 경험도 가지고, 다양한 도메인의 인공지능 분야도 경험하고, 특히 발표를 준비하면서 개인적으로 체계적으로 논문을 공부하고 정리할 수 있는 스터디로 만들고 싶어요! - 스터디 소개글
매주 한 사람씩 읽을 논문을 선정, 미리 공지합니다.
논문 선정은 주제등의 면에서 자유로우나, 되도록 탑 티어 컴퍼런스(ACL, EMNLP, NAACL, AAAI, ACM, ICLR, ICML, ICDM, CVPR, ECCV ...)내의 해당 분야의 SOTA를 달성한 논문이나 주요 핵심적인 논문, 또는 domain agnostic한 논문, 최신 동향을 제시하는 논문이면 좋겠습니다.
대면으로 한 사람씩 돌아가면서 읽고 정리한 논문에 관한 내용을 15~20분 사이의 시간을 정해놓고 발표합니다.
짧은 발표와 질의응답을 마친 뒤, 서로의 생각을 공유하고, 각자 해당 논문에 관한 짧은 코멘트나 평가를 남깁니다. 해당 내용은 문서로 정리합니다.
본 스터디를 통해 논문 공부 경험, 발표 경험, 다른 도메인 / 최신 동향에 관한 탐색, 타 연구자들과의 교류 등의 방면으로 많은 것을 얻고자 합니다.
1주차
Title | Conf. | Year | Reviewer |
Big Bird: Transformers for Longer Sequences | NeurIPS | 2020 | 조완식 |
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer | ICLR | 2017 | 홍소연 |
Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation | ACL | 2022 | 조우연 |
Playing Atari with Deep Reinforcement Learning | NeurIPS | 2013 | 양지승 |
Big Bird: Transformers for Longer Sequences
Sparse attention을 활용하여 long sequence input을 다룰 수 있음을 보여주는 모델 중 당대 SOTA 논문이였던 Longformer를 넘어선 알고리즘을 제시한 논문, 특히 다른 sparse attention 기법과 차별점으로 global token을 활용하였고, 전체 과정을 graphical theoric하게 증명한 점이 직관적/이론적으로 쉽게 읽히고 인상적임.
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
훈련 데이터와 모델의 사이즈가 커지면서 computational costs 가 방대해지는 문제점을 해결하기 위해 Sparsely gated Mixture of Experts 기법을 제시하였다. 딥러닝의 conditional computation 측면에서, 네트워크 내부 구조를 변형하여 algorithmic 솔루션을 제시하였다는 점에서 의의가 있다. 현대의 large corpus 에 기반한 대용량 모델들에 어떻게 적용해볼 수 있을 지에 대한 고민이 조금 더 필요하다.
Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation
최근 우세하게 사용되는 Interpolation기법과 perturbation기법을 활용하여 retrieval system에서 필요로 하는 query-document 쌍 데이터를 augmentation하는 방법론을 제시함. 불필요한 데이터를 추가적으로 생성하지 않고, 기존의 데이터를 labeling해줌으로써 효율적으로 필요한 데이터를 augmenting가능하다는 것이 큰 장점이다.
Playing Atari with Deep Reinforcement Learning
hand-labelled data에 의존하여 이루어지던 강화학습을 end-to-end로 구현한 최초의 사례를 발표하여, DQN을 이용하여computer vision 또는 speech data와 같은 high dimensional sensory input으로도 agent를 강화학습으로 학습할 수 있다는 점을 보임. 딥러닝과 강화학습이 결합된 연구가 활발하게 이루어지기 시작한 기념비적인 논문으로 이후에 나오는 강화학습 논문들의 토대가 되었다는 점에서 인상적임.
Study장 코멘트
완식 - Long Input Sequence, Large Language Model에 관심이 있기 때문에 LLM 전에 Long Input (more than 512 tokens)를 다루는 모델들 (Longformer, Reformer, BigBird, T5 ...)를 공부하였다.
소연 - 요즘 커지는 Model의 Computational Cost를 reduce하기 위한 방법 중 떠오르고있는 MoE(Mixture of Experts)방법에 대한 소개와 함께 Sparsely-Gated MoE에 대해 공부하였다.
우연 - Data Augmentation 중 Interpolation과 Perturbation 기법을 NLP 분야에 적용하는 방법에 대해 알아보았다.
지승 - Reinforcement Learning에 관한 연구 중 DQN이 처음으로 소개되어 end-to-end Reinforcement Learning을 제시한 기념비적인 논문에 대해 소개하였다.
2주차
Title | Conf. | Year | Reviewer |
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (T5) | JMLR | 2020 | 조완식 |
STABLEMOE: Stable Routing Strategy for Mixture of Experts | ACL | 2022 | 홍소연 |
mixup: BEYOND EMPRICAL RISK MINIMIZATION | ICLR | 2017 | 조우연 |
RL-GAN-Net: A Reinforcement Learning Agent Controlled GAN Network for Real-Time Point Cloud Shape Completion | CVPR | 2019 | 양지승 |
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
T5라는 specific downstream task agnostic하게 general perpose한 model이 오히려 finetuned model보다 좋은 성능을 낼 수 있음을 보여주는 중요한 논문, 특히 그를 가능케하는 dataset의 생성과 정의와 함께 개념적으로 model 자체는 최선적으로 naive하게 구성하여 핵심적인 개념만을 제시한 점이 인상깊음. 하지만 google model의 Large model / equipment는 그들만이 할 수 있는 점 이라는게 아쉬움. 특히 요즘의 GPT를 비롯한 Gopher, Chinchila 등 LLVM의 학습에 관해 기술적인 / 환경적인 문제가 대두되고 있는데 이러한 점에서 생각해 볼 문제가 많다.
STABLEMOE: Stable Routing Strategy for Mixture of Experts
기존의 model capacity 를 높이기 위한 측면에서 연구되어 왔던 Mixture-of-Experts 기법에 대해서, 라우터의 변동으로 인한 unstable trained experts 문제를 해결하기 위해 distilled router를 사용하도록 제시하고 있다. 훈련 과정을 두 가지 phrase로 구성하고, 다양한 추가 실험을 통해 모델의 효용성을 증명하고 있다는 점에서 인상적이다.
mixup: BEYOND EMPRICAL RISK MINIMIZATION
기존 image cropping, flip, rotate 등의 simple image augmentation을 넘어서 interpolation기법을 제시한 논문. ERM 기반의 ML학습은 주어진 training 데이터셋만 고려하여서 overfitting이 커지는 단점을 보완하기 위해 제안된 방법으로, training 데이터셋의 근방분포도 활용하여 모델을 학습하게끔 하는 VRM을 활용하며, 근방분포를 정의하기 위해 mixup을 통해 주어진 데이터셋으로 새로운 데이터 포인트를 정의하도록 한다. 따라서 mixup을 적용하면 overfitting을 줄일 수 있고, regularization 효과를 줄 수 있다. computer vision 을 넘어서 NLP에서도 mixup을 활용할 수 있는 논문을 보면 좋을 것 같음.
RL-GAN-Net: A Reinforcement Learning Agent Controlled GAN Network for Real-Time Point Cloud Shape Completion
기계 제어에만 사용되던 강화학습을 computer vision(GAN)에 적용한 최초의 연구 사례로, 기존의 point cloud shape completion 성능은 한 배치에 324초가 걸리는데에 반해 논문에서 제시하는 RL-GAN-Net은 같은 task를 millisecond 단위로 수행하였고, completion 성능도 확연히 뛰어난 것을 보여줬음. RL과 GAN의 association 논문으로, 참신한 아이디어를 제공했다는 점에서 인상적이지만 cloud completion에 대한 정량적인 성능 지표가 논문에 제시되지 않은 점이 다소 아쉬움.
Study장 코멘트
완식 - 지난 발표의 sparse attention mechanism등과는 다르게 Long Input Specific하게 다루는 model에서 subtask agnostic하게 text seq to text seq한 model을 제시한 T5에 대해 알아보았다.
소연 - 저번 발표에 이어서 MoE기법에 대해 Unstable Trained Experts 문제를 해결한 Distilled Router MoE를 공부하였다.
우연 - Data Augmentation mixup 방법에 대해 알아보았다.
지승 - GAN에 Reinforcement learning을 적용한 RL-GAN-Net에 대해 소개하였다.
3주차
Title | Conf. | Year | Reviewer |
Emergent Abilities of Large Language Models | TMLR | 2020 | 조완식 |
Addressing Failure Prediction by Learning Model Confidence | NeurIPS | 2019 | 홍소연 |
RL-GAN-Net: A Reinforcement Learning Agent Controlled GAN Network for Real-Time Point Cloud Shape Completion | CVPR | 2019 | 양지승 |
Emergent Abilities of Large Language Models
LargeLanguageModel의 Emergent라는 특성에 관한 모든 것을 담고있는 최신 survey 논문. Emergent ability의 bible이라고 해도 무방할 정도로 task와 함께 디테일한 설명과 다른 논문의 결과를 시각적으로 보기 좋게 잘 모음과 동시에 생각해 볼만한 potention explanation을 세 가지 제시하였고, scaling과 달리 생각해 볼 여지도 보여주었으며 sociologycal한 최신 연구 동향의 risk도 보여줌. moe나 fed learn같은 최신 연구와 엮을 수 있는 가능성과 무엇보다도 앞으로 연구자가 이와 관련해서 취해야 할 태도를 정리하고 제시한 점이 매우매우 인상깊다. 특히 reviewer 본인은 MoE + LongInputSeq(PPL++)와 관련지어 연구 방향을 잡고 싶음.
Addressing Failure Prediction by Learning Model Confidence
모델 confidence 측정에 있어서, 기존에 사용하던 Maximum class probability 의 failure prediction non-distinguish 문제를 해결하기 위해 True class probability (TCP) 지표를 제시하고 있다. training 단계에서 ConfidNet 파라미터를 학습하여 사용한다는 특징이 있다. failure predection과 out-of-distribution detection 까지 가능하고, high dimensional space 상에서 측정하기 때문에 data distance 기반 측정 방식보다 computational, memory cost가 적다는 이점이 있다.
Conservative Q-Learning for Offline Reinforcement Learning
Q-value가 ground true 값에 비해 항상 일정 수치만큼 큰 값을 갖기 때문에 agent의 학습이 붕 뜨는(?) 경향이 있는데, 이를 해결하기 위한 CQL (Contrastive Q-Learning)을 소개함. 학습으로부터 예측된 Q-value에 대해 lower-bound 값을 취해 최대한 보수적으로 수치를 계산하여 GT와 Q-value 사이의 격차를 최소화하여 학습 성능을 개선하는 점을 제시함.
Study장 코멘트
완식 - Long Input Sequence를 넘어 large language model에 대해 공부하다가 알게된 emergent ability라는 최신 LLM에서 벌어지는 현상에 대한 servey 논문에 대해 공부하였다. 특히 논문에서 제시하는 potention explanation에 더해 본인에 생각을 더하였고, 스터디의 홍소연 스터디원이 계속 공부했던 MoE와의 결합이나 조우연 스터디원이 발표했던 data augmentation과 결합해서 생각해 볼 수 있는 방면 등 흥미로운 연구 분야임을 소개하였다.
소연 - Classification에서 중요한 평가지표중 하나인 confidence에 대해 True Class Probability 지표를 새로 제시함을 보이고 ConfidNet의 구조를 소개하였다.
지승 - Contrastive Q-Learning 방법에 대해 소개하였다.
4주차
Title | Conf. | Year | Reviewer |
Large Language Models are Zero-Shot Reasoners | NeurIPS | 2020 | 조완식 |
Multimodal Dynamics: Dynamical Fusion for Trustworthy Multimodal Classification | CVPR | 2022 | 홍소연 |
MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification | ACL | 2020 | 조우연 |
Brain tumor segmentation based on deep learning and an attention mechanism using MRI multi-modalities brain images | CVPR | 2021 | 양지승 |
Large Language Models are Zero-Shot Reasoners
LLM이 잘 풀던 few-shot prompt에서 zero-shot prompt도 된다는 것, 특히 CoT-zero-shot prompt method를 제시함, 반면 law of scaling을 왜 안따르는지 이유는 제시하지 않고 그저 언급에 관해 그침 → Emergent를 이해하기 위해 제시되는 LLM이 적당히 풀지 못하는 task를 소개한 것에 대해 의미만 둠
Multimodal Dynamics: Dynamical Fusion for Trustworthy Multimodal Classification
의료 분야 멀티 모달리티 데이터를 통한 분류 모델의 trustworth 문제를 해결하기 위해 feature level과 modality level에서 dynamic fusion하도록 구상한 연구이다. feature level에서는 서로 다른 sample에 대해 가변적으로 변하는 feature informativeness 를 반영하도록 sparse gating 기법을 사용하였고, multimodal level에서는 각 모달리티 네트워크가 sample에 대해 어느 정도 confidence를 갖는지 TCP 지수로 측정하여 weighted concatenation 기법으로 fusion 하도록 했다. dynamic fusion 기법으로 기존 SOTA 모델들에 비해 크게 성능이 향상되었고, ablation study를 통해 TCP를 사용하는 multimodal informativeness 반영하는 것이 효과가 좋았음을 알 수 있었다.
MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification
기존의 computer vision에서만 제시되어 왔던 interpolation을 이용한 augmentation 기법을 NLP분야에 적용한 논문. 연속적인 값을 갖는 image 데이터와 다르게 NLP에서는 discrete token단위로 데이터가 표현되기 때문에 mixup기법을 활용하기가 어려웠다. 하지만, text의 embedding이나 high layer hidden representation을 이용하면 continuous한 값을 사용할 수 있다는 solution이 제시되면서 BERT의 hidden representation을 이용해 mixup을 적용하는 TMix가 제안되었다. 또한 TMix와 부가적인 기법(label guessing, Entropy minimization etc.)을 이용한 MixText라는 semi-supervised learning method를 함께 제안하여 label된 데이터를 이용해 unlabel데이터를 활용하여 모델의 성능을 크게 증가시킬 수 있게 되었다. 추후 구체적인 NLP task에 TMix와 MixText를 적용한 사례에 대한 논문을 더 살펴보고 싶다.
Brain tumor segmentation based on deep learning and an attention mechanism using MRI multi-modalities brain images
뇌 종양의 multi-modal segmentation을 딥러닝으로 구현한 논문. brain tumor segmentation에서 SOTA를 찍은 이전의 모델들은 MRI의 4가지 modality (T1, T1c, T2, FLAIR) 중 1가지만 사용하거나 motion artifact가 존재할 경우 수작업으로 데이터를 전처리해주어 시간이 오래 걸렸지만, 이 논문에서는 4가지 modality가 각각 나타내는 특성을 모두 고려하도록 Distance Wise Attention 메카니즘을 도입하여 경량화된 cascade-CNN 구조를 소개함. 또한 pre-processing 과정에서 MRI 전체 이미지를 사용하는게 아니라 ROI (Region of Interest) 영역만 학습에 사용함으로써 이전에 비해 3배 빠른 처리시간을 보여줌. DWA를 이용해 MRI데이터에 대한 multi-modal 학습이 가능하다는 점과 효율적인 연산을 위한 전처리 과정을 도입했다는 점에서 주목할만 하지만, 학습된 c-CNN 모델에 대한 정량적인 성능지표를 나타내지 않고 정성적인 판단(전문의 판단)으로 모델의 성능을 평가한다는 점이 아쉬웠음.
Study장 코멘트
완식 - 이전에 제시한 LLM emergent ability에 대해 공부하기 위해 그 현상을 보이기 위한 specific한 task 중 하나인 few-shot 또는 zero-shot에 대한 내용을 담고 있는 논문을 소개하였다.
소연 - 저번 시간에 제시한 논문인 TCP confidence 지표를 multi modal 분야에 활용하여 dynamic한 fusioning parameter로 활용하는 방법을 공부하였다.
우연 - 저번시간에 학습한 mixup augmentation 방법을 NLP분야에 적용한 TMix와 MixText에 대해 소개하였다.
지승 - Brain tumor segmentation이라는 분야를 DL로, 특히 Distance Wise Attention과 Cascade CNN을 통해서 여러 pre processing 방법과 함께 해결한 방법을 소개하였다.
마치며
본 스터디를 통해서
1. LLM, MoE, Confidence, MultiModal Fusioning, NLP Data Augmentation, Reinforcement Learning 등 AI의 하위 분야의 다양한 Domain에 대해 경험할 수 있었다.
2. 매주 논문에 관한 공부 및 대면 발표를 통해 발표 경험을 쌓을 수 있었다. (시간 분배 및 질의응답 준비 측면 등)
3. 각자 본인이 관심있는 분야의 논문을 정리할 수 있었다.
'Study > AI' 카테고리의 다른 글
[AI Paper Study] #2 (0) | 2023.01.25 |
---|