ML

[만들면서 배우는 생성 AI]생성 모델링

지미닝 2024. 6. 5. 17:10

생성 모델링

1.1 생성 모델링이란?

주어진 데이터셋과 유사한 새로운 데이터를 생송하도록 모델을 훈련하는 머신러닝의 한 분야다.

생성 모델을 만들려면 생성하는 개체의 샘플이 많은 데이터셋이 필요하다. 이를 훈련데이터라고 하며 데이터 포인트 하나를 샘플이라고 부른다.

각 샘플은 많은 **feature(특성)**으로 이루어진다.

  • 이미지 생성 문제에서 피처는 일반적으로 개별 픽셀값이다.
  • 텍스트 생성 문제에서 피처는 일반적으로 개별 단어 또는 문자의 그룹이다.

목표는 일련의 새로운 피처를 생성하는 모델을 만드는 것이다. 이 모델은 우너본 데이터와 동일한 규칙으로 생성된 것처럼 보이는 피처를 만든다.

생성 모델은 결정적이 아니고 확률적이어야 한다. 매번 동일한 값을 출력하는 것이 아니라 다양한 출력 결과를 샘플링할 수 있어야 하기 때문이다. 즉 랜덤한 요소를 포함해야한다.

 

1.1.1 생성 모델링과 판별 모델링

머신러닝을 배우면서 다루는 문제들은 대부분 판별 문제다.

판별 모델링을 수행할 때는 훈련 데이터의 각 샘플에 레이블이 있어야 한다. 모델은 두 그룹을 판별하는 방법을 배우고 새로운 샘플의 레이블이 1일 확률을 출력하게 된다.

반면 샘플 모델링은 주어진 이미지의 레이블을 예측하는 것이 아니라 완전히 새로운 이미지를 생성하는데 관심이 있기 때문에 데이터셋에 레이블을 지정할 필요가 없다.

 

1.1.2 생성 모델의 등장

최근까지 판별 모델링은 머신러닝 분야에서 대부분의 발전을 이끈 원동력이었다. 왜냐하면 판별 문제에 상응하는 생성 모델링 문제가 일반적으로 훨씬 해결하기 어렵기 때문이다. 또한, 창의성을 AI가 따라올 수 없는 순수한 인간의 능력으로 여겼기 때문이다.

그러나 머신러닝 기술이 발전함에 따라 이러한 가정은 약해지고 있다. 지난 10년동안 이 분야에서 가장 흥미로운 발전은 생성 모델링 작업에 머신러닝을 새롭게 적용하면서 일어났다.

기존에는 판별 모델링은 다루기 쉬웠고, 역사적으로 생성 모델링보다 산업 전반의 실제 문제에 적용하기 용이했다. 그러나 특정 비지니스 문제에 도움을 주는 생성 서비스를 제공하는 기업이 늘어나면서 상황이 변하기 시작했다.

 

1.1.3 생성 모델링과 AI

생성 모델링을 실용적으로 사용하는 것 외에도 생성 모델을 아주 복잡한 인공지능 문제로 푸는 열쇠로 생각하는 세 가지 이유가 있다. 이런 문제는 판별 모델링이 홀로 해결할 수 없다.

  1. 순전히 이론적인 관점에서 단순히 데이터를 분류하도록 기계를 훈련하는 데 그쳐서는 안된다.
  2. 특정 레이블을 넘어 데이터 분포를 완전히 이해하는 모델을 훈련하는데 관심을 가져야 한다.
  3. 생성 모델은 강화 학습같은 다른 AI분야의 발전을 주도하고 있다
  4. 인간과 견줄 만한 지능을 보유한 머신을 진짜로 만든다면 생성 모델이 확실히 그 솔루션의 일부가 되어야 한다.