GPT-3 포함 대규모 언어모델

728x90

네이버 AI NOW 사전 등록을 하던 중 인공지능 관련 관심있는 분야를 선택해달라는 질문이 있었다. AI 공부는 해봤지만 이렇게 세분적으로 인공지능 분야를 알지는 못했다. 그래서 그중에 내가 모르는 인공지능 분야에 대해서 공부하고자 한다.

출처: https://www.aitimes.kr/news/articleView.html?idxno=16599

우선 첫번째로 나와있던 GPT-3에 대해서 알아보자. GPT-3는 Generative Pre-Training 3로 AI 자연어처러(NLP) 모델이라고 한다. 이 모델은 2019년에 공개한 소설 쓰는 인공지능 'GPT-2'보다 훨씬 크고 혁신적인 버전으로 진화된 모델이라고 할 수 있다. 또한 딥러닝의 한계까지 추진돼 미세 조정없이 여러 자연어 처리 벤치마크에서 최첨단 성능을 달성했다. 즉, 몇 개 키워드만 넣어도 작문을 작성해주는 혁신적인 AI 언어생성 모델이자 알고리즘이라는 것이다. OpenAI 연구팀의 연구 논문(Language Models are Few-Shot Learners)에 따르면 GPT-3는 인간 평가자가 인간이 작성한 기사와 구별하기 어려운 뉴스 기사 샘플을 생성할 수 있다고 한다.

작업 별 모델 아키텍처가 필요하지 않으며 대규모 사용자 지정 작업 별 데이터 집합이 필요하지 않다는 개념은 최첨단 NLP의 접급성을 높이는 방향으로 나아가는 큰 단계라고 할 수 있다. GPT-3은 단어 예측, 상식 추록과 같은 NLP 작업에서 뛰어난 성능을 제공한다. 인문, 사회과학 분야에서 높은 성능을 보이지만 공학, 자연과학 분야에서는 약한 모습을 보인다고 한다. 학습에 사용된 데이터가 인문, 사회과학 데이터에 쏠려있어 사고력보다는 지식의 양에서 강점이 있다고 볼 수 있다. GPT-3는 아쉽게도 마이크로소프트에 독점권이 넘어가면서 활용이 불가능해졌다. 인공지능 발전에 핵심 기술의 제한을 반대하는 이들이 GPT-3 오픈소스 버전 GPT-Neo 모델을 공개하거나 영어 텍스트 테이터셋 더파일(The Pile)을 무료 공개하기도 했다.

중국 화웨이는 GPT-3를 넘는 '판구 알파(PanGu Alpha)'를 개발했다. 2000억개의 파라미터를 가진 판구 알파의 메모리 요구조건은 현대 AI 프로세서의 범위를 넘어선다고 한다. 연구팀은 모델 용량과 데이터 및 계산 양이 증가함에 따라 복잡성이 감소한다는 점과 모델 용량이 증가함에 따라 모델의 성능이 향상 된다는 것을 보여주었다.

인공지능 자언어 처리가 어떻게 진화하고 그 영향으로 사회가 어떻게 변화될지는 모르겠지만 기자도 곧 AI로 교체되는 날이 오지 않을까.

GPT-3 OpenAI에서 공개한 텍스트 샘플 모음, 일부 테스트 데이터 공개

PanGu Alpha에서 공개한 오픈 소스

참고

https://www.aitimes.kr/news/articleView.html?idxno=16599

[이슈] OpenAI, 혁신적인 AI 자연어처리(NLP) 모델 'GPT-3' 공개 - 인공지능신문

최근 인공지능(AI) 자연어 처리(NLP)에서 가장 화제가 되고 있는 플랫폼으로는 구글의 양방향 언어모델 버트(Bert), OpenAI의 단방향 언어모델 GPT-2, 기계신경망 번역(Transformer) 모델 등을 꼽을 수 있다

www.aitimes.kr

http://www.aitimes.kr/news/articleView.html?idxno=20985

[이슈] GPT-3 넘었다!... 화웨이, 2천억개 매개변수의 초거대 언어 AI 모델 '판구 알파' 공개 - 인공지

GPT-3가 공개된 지 11개월이 지났다. 놀라운 성능만큼 유명세도 대단했다.1,750억개 매개변수의 GPT-3는 역사상 가장 뛰어난 언어 인공지능(AI)가 되었을 뿐 아니라, 역사상 가장 유명한 언어 AI가 된

www.aitimes.kr