윤희

[호붕싸 모각코 6차] CA-MoE: Channel-Adapted MoE for Incremental Weather Forecasting 논문 리뷰

y_unique 2025. 3. 31. 20:47
작성자 김윤희
소 감 오늘은 논문 리뷰를 진행했다. 캡스톤디자인 프로젝트를 하면서 필요한 insight를 얻어가기위하여 논문을 읽었는데, 리뷰하는 글을 작성하게 되어 조금 더 명확히 이해한 것 같아서 도움이 되었던 시간이었다.
일 시 2025. 3. 31. (월) 18:00 ~ 21:00
장 소 미래관 429호 자율주행스튜디오
참가자 명단 신수민, 임혜진, 배세은, 김윤희 (총 4명)
사 진

 

오늘 리뷰할 논문은 2024년 12월에 나온 CA-MoE: Channel-Adapted MoE for Incremental Weather Forecasting 라는 논문이다. 

 

Abstract


이전에는 초기부터 모든 데이터를 학습해야했기에 계산 비용이 너무 크고,

도메인간 incremental learning의 가능성을 간과한다는 문제점을 안고있음

→ 새로운 기상 변수를 추가하려면 기존 모델을 다시 처음부터 학습해야한다는 문제가 있음

  • 아 근데.. 이 논문은 학습 중간?에 새로운 기상 변수를 추가하고싶은듯?

Introduction


기상 변수를 단순히 독립적으로 사용하는 것이 아니라 다른 과학 분야(지리학, 항공우주학 등)와의 연관성을 고려해아함!

그래서 지금까지 연구는 이러한 변수들을 단순히 concat하여 모델을 처음부터 다시 학습해왔음

→ but 매번 새로운 변수를 추가하면 모델 구조와 파라미터가 변경되기에 문제가 됨

그래서

  • incremental learning 을 제안
    • 모델을 완전히 새로 학습하지 않으면서도 새로운 변수를 동적으로 확장할 수 있는 기법
    • two-stage
      1. 초기 변수를 학습하는 단계 → 학습 후 experts는 freeze
      2. 새로운 변수를 추가 학습하는 단계
  • CA-MoE 구조를 제안
    • 기존 MoE의 단점
      • 병렬 구조로 인해 모든 experts가 균등하게 가중치를 갖기에 결과적으로 전문가 간 차별성이 부족해지는 문제가 있음
      → 그래서 channel-Adapted를 제안함
    • Chaanel-Adapted MoE
      • 서로 다른 변수에 대해 각각 다른 전문가를 할당하도록 설계
      • 변수마다 다른 위치정보를 제공하여 전문가들이 서로 다른 지식을 학습하도록 유도 → 다양한 학습이 가능
      • channel selection
        • 기존 MoE는 추론 시점에서 최적의 전문가를 선택함
        • CA-MoE는 training, inference 모두 최적의 전문가를 선택
  • 새로운 Variable-Adapted loss 제안
    • 각 변수에 대해 학습 속도를 조절하는 가중치 할당
    • 특정 변수의 학습이 너무 빠르거나 느려지는 것을 조절하도록

Task Definition


  • 기상변수
    1. upper-air variables → 고층 대기 변수
    2. suface variables → 지표 변수 (기압, 해수면기압 등)
  • pretrain-incremental strategy
    1. pretraining
    2. 고층 대기 변수로 전체 기상 모델 학습
    3. incremental training일부 파라미터만 finetuning 함
    4. 지표 변수를 추가하여 모델 업데이트,

Method


  • 목표
    • 다양한 대기 변수의 분포를 정확하게 표현하는 것

Variables and Index Embedding

  • input data 구조
    • 총 65개의 기상 변수 (온도, 기압, 습도 등)
      • 이 변수들은 5가지 유형으로 분류됨 (13 x H x W)
  • index imbedding
    • 각 변수에 대해 5차원의 one-hot vector
      • 뭐 얘네랑 채널별로 변수랑 곱해져서.. gateembed layer 통과하는듯
      • ⇒ 어떤 전문가가 활성화될지를 결정해

우리가 궁금한 것 ..


channeal-adatpted 라고 하는 이유는 뭘까

  • 일반적인 MoE는 모든 전문가를 병렬로 학습, 마지막 추론 때 특정 전문가를 선택함
  • 근데
  • index embedding을 활용해서 미리 전문가와 변수 간의 관계를 정의하고, 변수별로 최적화된 전문가를 선택하도록 함
    • 각 변수,, 예를 들면 기압, 온도, 풍속 등에 맞는 적절한 전문가가 특정 채널에만 활성회되도록 한거임
    • 그래서 학습 또는 추론 때 Top-K selection layer만 사용해서 가장 관련성이 높은 k개의 채널만 활성화하도록 함(효율적이고 성능유지도 될 거라 함)
    • → 전체 네트워크를 활성화하는게 아니라 변수별로 최적화된 채널만 사용하자는것

음.. 우리 task에 응용해볼 것들을 생각해보자면 ..


  • 특정 channel 만의 expert를 만들고 학습
  • inference 때 가장 높은 채널에 가중치 or 그 채널만 보고 추론하기..

추가적인 변수? 추가적인 데이터? 가 있다면 해당 논문이 조금 유용할지도..!