Meta의 새로운 메가바이트 시스템은 GPT의 가장 큰 장애물 중 하나를 해결합니다.
출처 cointelegraph 저자 트리스탄 그린 소스:EK 이페어케이 플러스
Meta AI의 연구원들은 GPT 모델의 "토큰화" 문제를 해결하는 방법을 개발했을 수 있습니다.
Meta AI는 최근 GPT(Generative Pre-trained Transformer) 시스템 구축을 위한 급진적인 새로운 "메가바이트" 프레임워크를 보여주는 사전 인쇄 연구를 발표했습니다.
테슬라의 전 인공 지능 이사인 OpenAI의 Andrej Karpathy가 "유망하다"고 부르는 이 새로운 아키텍처는 토큰화로 알려진 프로세스를 사용하지 않고 이미지, 소설 및 비디오 파일과 같은 대량의 데이터를 처리하도록 설계되었습니다.
트윗
Andrej Karpathy
@karpathy
Promising. Everyone should hope that we can throw away tokenization in LLMs. Doing so naively creates (byte-level) sequences that are too long, so the devil is in the details. Tokenization means that LLMs are not actually fully end-to-end. There is a whole separate stage with its own training and inference, and additional libraries. It complicates the ingest of additional modalities. Tokenization also has many subtle sharp edges. Few examples: That "trailing whitespace" error you've potentially seen in Playground? If you end your (text completion API) prompt with space you are surprisingly creating a big domain gap, a likely source of many bugs: https://blog.scottlogic.com/2021/08/31/a-primer-on-the-openai-api-1.html… Tokenization is why GPTs are bad at a number of very simple spelling / character manipulation tasks, e.g.: https://twitter.com/npew/status/1525900849888866307… Tokenization creates attack surfaces, e.g. SolidGoldMagikarp, where some tokens are much more common during the training of tokenizer than they are during the training of the GPT, feeding unoptimized activations into processing at test time: https://lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation… The list goes on, TLDR everyone should hope that tokenization could be thrown away. Maybe even more importantly, we may find general-purpose strategies for multi-scale training in the process.
트윗 번역하기
트윗 인용하기
AK
@_akhaliq
·
5월 15일
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers abs: https://arxiv.org/abs/2305.07185 paper page: https://huggingface.co/papers/2305.07185…
오후 12:21 · 2023년 5월 15일
·
133만
조회수
토큰화는 파일 압축에 필적하는 손실 프로세스입니다. 많은 양의 데이터를 처리하기 위해 GPT 모델은 바이트를 토큰으로 변환합니다. 그런 다음 토큰은 변환기에 의해 처리되고 출력 토큰을 생성하는 데 사용되며 디코딩됩니다.
토큰화 프로세스를 통해 AI 시스템은 더 큰 데이터 문자열을 숫자로 처리할 수 있습니다. 예를 들어 OpenAI의 ChatGPT에서 처리하면 "내가 가장 좋아하는 색은 빨간색"이라는 단어는 처리를 위해 토큰 문자열 "3666, 4004, 3124, 318, 2266, 13"으로 변환됩니다.
토큰화 프로세스의 OpenAI 데모. 출처: OpenAI
안타깝게도 토큰화를 통해서도 현재의 최첨단 시스템이 처리할 수 있는 데이터의 양은 여전히 한계가 있습니다. GPT-3.5의 경우 한도는 4,000개 토큰 또는 약 3,000단어를 약간 넘는 반면 GPT-4는 최대 약 32,000개 토큰 또는 약 24,000단어입니다.
Meta의 새로운 메가바이트 시스템은 토큰화를 버리고 1만 바이트 이상의 데이터를 엔드 투 엔드 모델링할 수 있는 새로운 다중 계층 예측 아키텍처를 선호합니다.
대부분의 표준 영어 인코딩 시스템은 표준 8비트 인코딩을 사용합니다. 이 패러다임에서 각 문자는 1바이트의 데이터를 차지합니다. 따라서 토큰화 없이 750만 바이트의 데이터를 처리할 수 있는 AI 시스템은 GPT-000보다 3,025% 증가한 4,<>단어가 포함된 텍스트 문서로 작동할 수 있습니다.
비교를 위해 GPT-4는 현재 단일 프롬프트에서 약 10개의 장편 뉴스 기사를 처리할 수 있는 반면 Megabyte는 레오 톨스토이의 전쟁과 평화 전체와 또 다른 두 개의 평균 길이 소설을 구문 분석할 수 있습니다.
Meta의 메가바이트 모델은 오디오 파일 처리와 관련된 ImageNet 테스트 및 벤치마크에서도 좋은 성능을 보였으며, 두 가지 모두에서 DeepMind의 Perciever AR과 같은 기존 바이트 기반 트랜스포머 모델과 같거나 능가했습니다.
"메가바이트는 컴퓨팅의 절반만 사용하면서 PerceiverAR의 최첨단 성능과 일치합니다."
이 연구의 의미는 광범위 할 수 있습니다. 토큰화는 엄격한 데이터 제한과 시스템 훈련에 필요한 에너지 및 시간으로 인해 현장에서 장애물로 간주됩니다.
토큰화가 없으면 영어가 아닌 언어, 특히 표준 8비트 문자로 쉽게 인코딩할 수 없는 언어에 대한 더 강력한 기본 지원으로 AI 모델을 훈련할 수 있어야 합니다.
이는 이러한 기술의 민주화로 이어질 수 있으며 암호화폐 거래 봇에서 분산형 자율 조직 기술에 이르기까지 모든 것이 전 세계의 모국어 코드로 구축될 수 있습니다.
또한 텍스트와 거의 동일한 시간과 에너지 소비를 사용하여 멀티미디어 클립을 생성하여 이미지, 비디오 및 오디오 파일로 작업할 수 있는 ChatGPT와 같은 모델의 용량을 증가시킬 것입니다
저자
트리스탄 그린 Tristan은 기술의 인간적인 면을 깊이 파고드는 것을 즐기는 미래학자입니다. 그는 2017년에 암호화폐와 블록체인 기술에 대한 글을 쓰기 시작했으며 현재 AI와 메타버스에 매료되어 있습니다. 글을 쓰고 연구하는 것 외에도 그는 아내와 함께 게임을 하고 군사 역사를 공부하는 것을 즐깁니다.