Study/AI

[AI Paper Study] #2

312132 2023. 1. 25. 14:23

AI Paper Study


23년도 겨울학기, 새로운 방학을 맞이함에 따라 AI Paper Study를 새로이 시작하였다.

본 스터디는 저번 스터디와 마찬가지로 다음과 같은 목적성을 가지고 시작한다.

AI / DL의 다양한 분야의 논문들을 읽고 공부하고 발표하는 시간을 가져보고자 합니다! 발표 경험도 가지고, 다양한 도메인의 인공지능 분야도 경험하고, 최신 연구 동향을 알아보고, 특히 발표를 준비하면서 체계적으로 논문을 공부하고 정리할 수 있는 스터디로 만들고 싶어요!

 

스터디 방식은 다음과 같다.

더보기

매주 각자가 읽을 논문을 선정, 미리 노션을 통해 공지합니다.

 

논문 선정은 ACL2022, NeurIPS2022 두 컨퍼런스 리스트에서 선정합니다. (최신 동향을 읽기 위함 + 도메인을 어느정도 한정시키기 위함)

 

대면으로 만나서 한 사람씩 돌아가면서 각자가 미리 읽고 정리한 논문에 관한 내용을 15~20분 정도의 짧은 발표를 진행합니다.

그 이후 질의응답을 마친 뒤, 스터디원 서로의 생각을 공유하고, 추가 지식을 공유하며, 각자 본인이 읽은 논문에 관한 짧은 코멘트 및 평가를 남깁니다. 해당 내용은 문서로 정리합니다.

 

본 스터디를 통해 논문 공부 경험, 발표 경험, 다른 도메인 / 최신 동향에 관한 탐색, 타 연구자들과의 교류 등의 방면으로 많은 것을 얻고자 함을 지향한다.

 



1주차

Title Conf. Year Reviewer
A Recipe for Arbitrary Text Style Transfer with Large Language Models ACL 2022 조완식
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding ACL 2022 홍소연
Entropy-based Attention Regularization Frees Unintended Bias Mitigation from Lists ACL 2022 김형준
ViLMedic: a framework for research at the intersection of vision and language in medical ai ACL 2022 양지승

A Recipe for Arbitrary Text Style Transfer with Large Language Models

LLM의 Zero-shot / Few-shot prompt learning task 중 TST(Text Style Transfer)에 관해 다룬 논문, 특히 그 recipe를 경험적으로 제공하고 이 recipe들의 zero-shot augment로 arbitrary하게 TST를 할 수 있음을 보여준다. 나아가 LLM의 다른 NLP Zeroshot prompt task를 arbitrary하게 해결할 수 있음을 기대한다.

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Text-to-Image 생성 task를 수행하기 위해 conditional text encoder로 LLM인 T5-XXL 모델을 사용한 구글다운 논문이다. 주요 기술적 의의로는 efficient U-Net 구조를 바탕으로 diffusion denoising 과정을 거친다는 점과, denoising 과정에서 오직 텍스트 임베딩을 반영하기 위한 cross-attention layer를 업데이트 하면서 dynamic thresholding 기법으로 classifier-free guidance 를 준다는 점이다. Image fidelity와 image-text alignment 부문 모두에서 DALL-E 2 와 같은 기존의 SOTA 모델들보다 충분히 좋은 성능을 보인다. 결론적으로, LLM의 활용과 noise conditioning augmentation 방법론의 장점을 효과적으로 반영하였다.

Entropy-based Attention Regularization Frees Unintended Bias Mitigation from Lists

해당 논문은 기존의 hate speech detection에 쓰이는 모델의 ‘keyword-based detection’이라는 문제점을 지적하며 context를 고려한 모델을 제시한다. 기존의 self intention 개념에 entropy개념을 적용하여 EAR (Entropy based Attention Regularization) 모델을 고안했다. EAR모델은 overfitting된 단어의 편향을 완화할 수 있다고 주장한다. 해당 모델은 각 token별 attention entropy를 유도하여 ‘attention entropy가 높을수록 다양한 문맥이 단어 임베딩에 기여하므로 다양한 문맥에서 해석될 수 있는 token이다’라는 결론을 도출한다. 저자는 EAR모델을 Transformer-based 모델인 BERT에 적용하여 고안된 모델을 hate speech dataset을 통해 검증했다. dataset은 unintended bias를 측정하기 위해 고안된 synthetic test sets이고 BERT + EAR 모델은 기존에 제신된 모델들 보다 높은 성능을 보인다. 기존의 방식을 탈피하여 새로운 방식을 고안했고 과정이 직관적으로 읽힌다는 점이 인상 깊었지만 contextual과 hatespeech의 상관관계가 좀 더 고려될 여지가 있어보인다.

ViLMedic: a framework for research at the intersection of vision and language in medical ai

medical 분야에 특화된 연구 프레임워크를 제공하는 논문으로, medical AI의 고질적인 문제점인 기관마다 다른 데이터셋과 training 모델에서 기인하는 낮은 reproducibility를 해결하고자 보편적으로 보편적으로 사용되는 pretrained tool들을 하나의 라이브러리에 정리하여 제시함. Medical 분야의 vision-language multimodal 연구가 활발하게 이루어지는데, 연구 평가의 기준점을 제시하는 좋은 시도임. 하지만 demo 논문이기에 논문 자체로서 담고있는 의미는 없기에, 논문스터디 발표용 논문으로는 부적합함.

'Study > AI' 카테고리의 다른 글

[AI Paper Study] #1  (1) 2022.12.29