대규모 언어 모델(LLM) : 다양한 자연어 처리 작업을 수행할 수 있는 딥러닝 알고리즘
LLM은 트랜스포머 모델을 사용하며 방대한 데이터세트를 사용하여 훈련됨. LLM은 신경망 이라고도 함.
트랜스포머 모델은 LLM의 가장 일반적인 아키텍처로, 인코더와 디코더로 구성됨.
입력 정보를 토큰화한 다음, 토큰 간의 관계를 발견하기 위해 수학 방정식을 수행하여 데이터 처리.
트랜스포머 모델은 셀프 어텐션 메커니즘과 함께 작동함.
이는 전통적인 모델보다 더 빨리 학습하도록 하고, 시퀀스의 다른 부분, 또는 문장 전체 맥락을 고려하여 예측을 생성할 수 있도록 함.
LLM은 여러 신경망 레이어로 구성됨.
순환 레이어, 피드포워드 레이어, 임베딩 레이어, 어텐션 레이어가 함께 동작하여 입력 텍스트를 처리하고 출력 콘텐츠를 생성함.
임베딩 레이어는 입력 텍스트로부터 임베딩 생성함. (임베딩은 구조화된 데이터 인듯)
그러면 LLM과 생성형 AI의 차이점은?
생성형AI는 콘텐츠를 생성할 수 있는 능력을 갖춘 AI 모델을 포괄적으로 지칭하는 용어.
텍스트, 코드, 이미지, 영상, 음악 등을 생성할 수 있음. 예시로, 미드저니, 챗지피티 등 있음.
LLM은 텍스트에 대해 훈련되어 있는 텍스트 콘텐츠를 생성하는 생성형 AI의 한 유형.
ChatGPT는 생성형 텍스트 AI의 예.
모든 LLM은 생성형 AI.
LLM의 작동 방식
LLM은 트랜스포머 모델을 기반으로, 입력을 받아 인코딩한 후 이를 처리 후 디코딩하여 출력 예측을 생성하는 방식으로 작동.
이를 위해서는 일반적인 기능을 수행할 수 있는 훈련과, 특정 작업을 수행할 수 있는 미세 조정이 필요.
LLM의 사용 사례
정보 검색, 정서 분석, 텍스트 생성, 코드 생성, 챗봇 등
그 외에, 코드 작성, 단백질 구조 최적화, 정서 분석 마케팅, 법무, 신용카드 사용 시 사기 탐지 (뱅킹)
LLM의 한계 및 과제
- 환각 : 거짓이거나 의도하지 않는 결과 생성
- 보안 : 개인 정보 유출, 스팸 생성
- 편향 : 다양성 부족한 훈련 시 출력도 다양성 부족
- 동의 : 훈련 데이터의 저작권 침해 가능성
- 확장 및 배포 : LLM을 확장 및 유지관리, 배포에 지식이 필요하며, 시간과 리소스가 듦
LLM의 예시
- PaLM
- BERT
- XLNet
- GPT
생성형 AI : 다양한 분야에서 콘텐츠를 생성할 수 있는 인공지능의 한 분야. LLM, 딥러닝 및 머신러닝을 활용하여 생산.
신경망을 사용하여, 학습한 패턴과 일치하는 새로운 데이터를 생성.
생성적 적대 네트워크(GAN), LLM, 트랜스포머 등과 같은 고급기술을 활용하여 생성.
인공지능(AI) : 사람의 지적 능력을 컴퓨터로 구현한 기술
머신러닝 : 인공지능의 하위 분야로,
딥러닝 : 인공신경망을 여러 계층으로 쌓아 인공지능을 구현한 머신러닝의 하위 분야.
머신러닝과 딥러닝의 차이점 : 사람의 개입 여부.
머신러닝은 사전에 사람이 패턴을 추출하는 방법을 정의함. 하지만 딥러닝은 스스로 분류.
참고 링크
'지식 한 조각 🍰' 카테고리의 다른 글
Spring Data Redis String 타입 명령어 (0) | 2024.06.09 |
---|---|
Redis NX XX (0) | 2024.06.08 |
SQL 문법 정리 (0) | 2024.06.06 |
VPN (0) | 2024.06.04 |
Docker로 MySQL 컨테이너 실행하기 (0) | 2024.05.27 |