LLM의 기본원리 및 작동방식

정보큐레이션 2024. 2. 10. 13:49

챗GPT의 인공지능 모델이 LLM(Large Language Model)입니다. LLM은 인공지능(AI)의 한 분야인 자연어 처리(NLP)에서 중요한 역할을 하는 모델입니다. 이 모델은 방대한 양의 텍스트 데이터를 학습하여 언어를 이해하고 생성하는 능력을 향상시킵니다. 이러한 모델은 다양한 언어 데이터를 바탕으로 훈련되며, 이를 통해 언어의 문법, 문맥, 그리고 일반 지식의 일부 측면을 파악할 수 있습니다.

1. 토큰화

토큰화는 일반 인간 언어를 저수준 기계 시스템(LLMS)가 이해할 수 있는 시퀀스로 변환하는 작업입니다. 이 과정에서 문장은 개별 단어나 구(phrase)로 분리되며, 이러한 단위를 '토큰’이라고 합니다. 토큰화는 LLM이 언어 데이터를 처리하고 이해하는 데 필수적인 첫 번째 단계입니다.

2. 트랜스포머 모델

트랜스포머 모델은 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망입니다.

어텐션(attention) 또는 셀프어텐션(self-attention)이라 불리며 진화를 거듭하는 수학적 기법을 응용해 서로 떨어져 있는 데이터 요소들의 의미가 관계에 따라 미묘하게 달라지는 부분까지 감지해 냅니다.

※ 어텐션 메커니즘은 '쿼리(Query)'에 대해서 모든 '키(Keys)'와의 유사도를 각각 구합니다. 이 유사도를 가중치로 하여 키와 맵핑되어 있는 각각의 '값(Values)'에 반영해줍니다. 그리고 유사도가 반영된 '값(Values)'을 모두 가중합하여 리턴합니다.

※ 셀프 어텐션(Self-Attention)이라는 것은 어텐션을 자기 자신에게 수행한다는 의미입니다. 즉, 입력 문장 내의 단어들끼리 유사도를 구하면서 각 단어가 문장 내에서 어떤 역할을 하는지, 어떤 단어와 관련이 깊은지 등을 파악합니다. 이를 통해 문장의 문맥을 이해하고, 문장 생성이나 번역 등의 작업을 수행할 때 문맥을 고려한 더 정확한 결과를 도출할 수 있습니다.

구글(Google)의 2017년 논문에 처음 등장한 트랜스포머는 지금까지 개발된 모델 중 가장 새롭고 강력합니다. ‘트랜스포머 AI’라 불리기도 하는 머신 러닝계의 혁신을 주도하고 있죠.

스탠퍼드대학교 연구진은 2021년 8월에 발표한 논문에서 트랜스포머를 “파운데이션 모델(foundation model)”로 일컬은 바 있습니다. 이 모델들이 AI의 패러다임 변화를 견인하고 있다고 봤기 때문인데요. “지난 몇 년 사이 등장한 파운데이션 모델의 놀라운 규모와 범위는 우리가 가능하다고 상상하는 것들의 범주를 넓혀왔다”고 평가했습니다.

■ 트랜스포머 모델의 기능

트랜스포머는 텍스트와 음성을 거의 실시간으로 옮겨 청각 장애인 등 다양한 청중의 회의와 강의 참여를 지원합니다. DNA의 유전자 사슬과 단백질의 아미노산에 대한 이해를 도와 신약 디자인을 가속하기도 합니다.

파운데이션 모델이라고도 불리는 트랜스포머는 여러 데이터 소스와 함께 다양한 영역에서 활용(출처 : NVIDIA)

트랜스포머는 트렌드와 이상 징후를 감지해 부정 방지, 제조 간소화, 온라인 추천, 헬스케어 개선 등에 기여합니다.

■ 트랜스포머 AI의 선순환

순차적 텍스트나 이미지, 비디오 데이터를 사용하는 애플리케이션은 무엇이든 트랜스포머 모델이 될 수 있습니다.

이는 트랜스포머 AI의 선순환으로 이어집니다. 대규모 데이터세트로 구축된 트랜스포머들은 정확한 예측을 통해 자신들의 보다 효과적인 쓰임새를 찾아내고, 이에 힘입어 더 많이 생성한 데이터로 더 나은 모델을 구축할 수 있게 됩니다.

NVIDIA 창립자 겸 CEO 젠슨 황(Jensen Huang)도 GTC 2022 키노트에서 트랜스포머가 “자기지도(self-supervised) 학습을 가능하게 하고, AI가 초고속으로 움직이게 만듭니다”라고 평가한 바 있습니다.

■ 딥러닝 알고리즘인 CNN과 RNN을 대체하는 트랜스포머

불과 5년 전까지도 가장 인기 있는 딥 러닝 모델로 손꼽혔던 합성곱과 순환 신경망(CNN과 RNN)을 이제는 트랜스포머가 대체하고 있습니다.

실제로 지난 2년간 아카이브(arXiv)에 게재된 AI 관련 논문의 70%에 트랜스포머가 등장합니다. 2017년 전기전자학회(IEEE) 논문에 패턴 인식 분야의 최고 인기 모델로 RNN과 CNN이 보고됐다는 사실을 감안하면 이는 아주 전위적인 변화인 셈입니다.

■ 라벨링은 없애고 성능은 높이고

트랜스포머의 등장 전까지는 라벨링된 대규모 데이터 세트로 신경망을 훈련해야 했는데요. 이런 데이터 세트들은 구축에 많은 시간과 비용이 소요되죠. 트랜스포머는 요소들 사이의 패턴을 수학적으로 찾아내기 때문에 이 과정이 필요 없습니다. 그 덕분에 수조 개의 이미지와 페타바이트(petabytes)급 텍스트 데이터를 웹과 기업 데이터베이스에서 사용할 수 있게 됩니다.

이에 더해 트랜스포머가 사용하는 연산은 병렬 프로세싱에 적합하기 때문에 모델의 실행 속도 또한 빨라집니다.

■ 트랜스포머와 어텐션

신경망 대부분이 그렇듯 트랜스포머 모델도 기본적으로는 데이터를 처리하는 대형 인코더/디코더 블록에 해당합니다.

이 블록에 작지만 전략적인 요소들을 추가해(하단 그림 참고) 트랜스포머를 더욱 특별하게 개선할 수 있습니다.

트랜스포머를 정의한 에이단 고메즈(Aidan Gomez)가 제시한 모델(출처 : NVIDIA)

트랜스포머는 네트워크에 송수신되는 데이터 요소에 위치 인코더로 태그를 지정합니다. 이 태그를 따라 어텐션 유닛이 데이터 요소 간의 관계를 보여주는 일종의 대수 지도(algebraic map)를 계산합니다.

어텐션 쿼리는 멀티헤드 어텐션(multi-headed attention)이라 불리는 방정식들의 행렬을 계산해 대개 병렬로 실행됩니다.

이러한 도구들을 활용해 컴퓨터는 인간의 눈에 비치는 패턴을 똑같이 볼 수 있게 됩니다.

※ NVIDA의 GPU가 행렬계산에 우수한 기능을 가지고 있어 인공지능 학습속도가 크게 개선됨

■ 의미를 찾는 셀프어텐션

문장을 예로 들어 살펴보겠습니다.

그녀는 주전자의 물을 컵에 따랐다. 그것이 가득 찰 때까지.

여기서 ‘그것’이 컵을 의미한다는 사실을 우리는 쉽게 알 수 있습니다. 그럼 다음의 문장을 보죠.

그녀는 주전자의 물을 컵에 따랐다. 그것이 텅 빌 때까지.

여기서 ‘그것’은 물론 주전자를 의미하겠죠.

구글 브레인(Google Brain)의 수석 연구원으로 앞서 소개한 2017년 논문의 연구를 이끈 아시시 바스와니(Ashish Vaswani)에 따르면 “의미는 사물 간 관계의 결과이고, 셀프어텐션은 관계를 배우는 일반적 방법”입니다.

그는 “기계 번역은 단어 사이의 가깝고 먼 관계들을 파악해야 하는 셀프어텐션의 확립에 좋은 수단이 되어줬습니다”며, “이제 셀프어텐션은 강력하고 유연한 학습의 도구로 완전히 자리매김했습니다”라고 덧붙였습니다.

3. 프롬프트

프롬프트는 개발자가 정보를 분석하고 토큰화하기 위해 LLM에 제공하는 정보입니다. 프롬프트는 LLM에게 어떤 작업을 수행해야 하는지 지시하는 역할을 합니다. 예를 들어, "오늘 날씨는 어떤가요?"라는 프롬프트는 LLM에게 오늘의 날씨에 대한 정보를 생성하도록 지시합니다. 질문을 잘하기 위해서는 명확하고 정확하게, 맥락을 제공하고 일관성 있게 하면 효과적으로 질문에 대한 답변이 생성 됩니다.

출처 : NVIDIA

저작자표시 비영리 변경금지

'IT' 카테고리의 다른 글

클라우드 네이티브, 컨테이너, 쿠버네티스 알아보기 (1)	2024.02.20
기업의 sLLM(smaller Large Language Model) 도입전략 (0)	2024.02.17
IT 해킹시도에 대한 기업/기관의 보안대응 방안 (0)	2024.02.10
애플 비전프로(증강현실 확장 MR헤드셋) 출시 (0)	2024.02.07
인공지능의 이해 - 기초편 (1)	2024.02.05

현재글LLM의 기본원리 및 작동방식

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

socialfilter