Claude 3.5 Sonnet은 향후 출시될 Claude 3.5 모델 중 첫 번째 모델로,
중간 가격대의 모델인 Claude 3 Sonnet의 속도와 비용을 유지하면서도 다양한 평가에서 경쟁 모델과 Claude 3 Opus를 능가하는 뛰어난 성능을 보여줍니다.
Claude 3.5 Sonnet은 벤치마크 점수에서 다른 생성형 모델에 비해 우수한 성능을 보였습니다.
지금 현재 성능으로는 클로드 3.5 소네트가 GPT-4o 보다 성능이 좋네요.👍
비교 회사-모델과 벤치마크는 다음과 같습니다.
회사 | 모델 |
Anthropic(앤트로픽) | Claude 3.5 Sonnet |
Anthropic(앤트로픽) | Claude 3 Opus |
OpenAI(오픈AI) | GPT-4o |
Google(구글) | Gemini 1.5 Pro |
Meta(전 페이스북) | Llama -400b |
0-shot은 모델이 사전 정보 없이 바로 문제를 푸는 경우를 의미합니다.
- Graduate level reasoning (GPQA, Diamond) - 대학원 수준의 추론
- 대학원 수준의 복잡한 추론 문제를 얼마나 잘 해결하는지를 평가합니다.
- Undergraduate level knowledge (MMLU) - 대학 학부 수준의 지식
- 대학 학부 수준의 일반 지식을 얼마나 잘 알고 있는지를 평가합니다.
- Code (HumanEval) - 코드 작성 능력
- 프로그래밍 문제를 해결하기 위해 코드를 얼마나 정확하게 작성할 수 있는지를 평가합니다.
- Multilingual math (MGSM) - 다국어 수학
- 여러 언어로 된 수학 문제를 얼마나 잘 해결할 수 있는지를 평가합니다.
출처: https://hyunicecream.tistory.com/103 [Café:티스토리]
- Reasoning over text (DROF, F1 score) - 텍스트 기반 추론
- 주어진 텍스트를 기반으로 추론하여 질문에 답하는 능력을 평가합니다.
- Mixed evaluations (BIG-Bench-Hard) - 복합 평가
- 다양한 유형의 어려운 문제들을 포함하며, 모델의 전반적인 문제 해결 능력을 평가합니다.
- Math problem-solving (MATH) - 수학 문제 해결
- 수준 높은(어려운) 수학 문제를 얼마나 잘 해결할 수 있는지를 평가합니다.
- Grade school math (GSM8K) - 초등학교 수학
- 초등학교 수준의 수학 문제를 얼마나 잘 해결할 수 있는지를 평가합니다.
결과를 보시면 확실히 클로드 3.5 소네트 모델이 성능이 다른 기업의 모델보다 성능이 높은 걸 확인하실 수 있습니다.😎
- Visual math reasoning (MathVista, testset) - 시각적 수학 추론
- 시각적 정보를 포함한 수학 문제를 얼마나 잘 해결하는지를 평가합니다.
- Science diagrams (AI2D, test) - 다이어그램
- 다이어그램을 해석하고 질문에 답하는 능력을 평가합니다.
- Visual question answering (MMIMDB/hard) - 시각적 질문 응답
- 시각적 정보를 기반으로 질문에 답하는 능력을 평가합니다.
- Chart Q&A (biaised accuracy/test) - 차트 질문 응답
- 차트를 해석하고 질문에 답하는 능력을 평가합니다.
- Document visual Q&A (ANLS score, test) - 문서 시각적 질문 응답
- 문서 내의 시각적 정보를 기반으로 질문에 답하는 능력을 평가합니다.
이번 벤치마크에서도 클로드 3.5 소네트 모델이 성능이 다른 기업의 모델보다 성능이 높은 걸 확인하실 수 있습니다.👍
확실히 현재까지 나온 생성형 AI 중에서는 종합적으로 결과가 가장 좋다고 할 수 있습니다.
지금 해외에서 클로드 3.5 소네트에 많이 열광하고 있습니다... 코딩 능력 + 추론이 더 좋다고 평가하는 사람이 많고, 특히 이번에 새로 생긴 기능인 아티팩트가 많은 분들을 열광시키고 있는 것 같네요.
저도 써보니깐 괜찮아서, 챗GPT보다 사용빈도가 더 높습니다.
아직 한국은 많이 안 알려진 듯합니다.😭
Artifacts(아티팩트)는 사용자가 코드 스니펫, 텍스트 문서 또는 웹사이트 디자인과 같은 콘텐츠를 생성할 때, 생성된 결과물을 실시간으로 보고 편집할 수 있는 동적 작업 공간을 제공합니다.
👍(대박기능)👍
쉽게 말하면, 텍스트로 실시간으로 텍스트를 수정을 하면서 게임, 웹사이트 PPT제작 등 데모버전을 바로 실시간으로 확인하실 수 있습니다.
(해외에서는 단 몇 줄로 해외에서 게임을 만드는 분들이 많은 것 같습니다.)
앤트로픽 공식 홈페이지에 게시되어 있는 실제 시연 영상입니다.
텍스트로 질문하면 알아서 빠르게 코드를 작성하면서 순식간에 단 몇 번의 질문으로 게임을 만들어 냈습니다.😱
이미지를 보시면 왼쪽 화면에 있는 화면이 저희가 질문과 답변을 받는 화면이고, 오른쪽에 화면이 이번에 새로 생긴 아티팩트 기능입니다.
원하시는분은 공식 유튜브 가서 한번 보시면 좋을 것 같습니다.
앤트로픽 공식 유튜브 : 시연 영상 보러가기
다른 시연영상은 이미지를 첨부하면, 그걸 해석하고 Json 파일 형식 좌표를 얻은 다음에, 다시 시각화하고, PPT까지 만들어 줍니다.
이미지를 첨부하고, 클로드 3.5 소네트가 Json으로 읽은 다음 다시 새로운 그래프를 만들어주고, 이걸 다시 PPT슬라이드로 만들어줍니다.
보니깐, 컬러코드를 PDF로 첨부해서 올린 후에, 활용하는 것 같습니다.
이 기능도 활용도가 무궁무진할 것 같습니다.
출처: https://hyunicecream.tistory.com/103 [Café:티스토리]