딥시크 때문에 완전히 묻힌
릴리즈 된 지 한달도 안된 Mistral-Small-24B-Instruct-2501를 사용해보았습니다.
소개
공식페이지: https://mistral.ai/news/mistral-small-3
Mistral은 이 모델의 강점으로
양자화 시 24GB VRAM 혹은 32GB 맥북에서 구동 가능한 점과 빠른 응답성을 꼽았고,
경쟁 모델로는 gemma-2-27b, qwen-2.5-32b로 잡았습니다.
모든 모델에서 한국어MMLU가 낮은 게 아쉽군요.
특이사항
- 아파치 라이선스
- 컨텍스트 길이 : 32K
- tekken tokenizer : 한국어를 포함해 다국어 처리가 빠르다고 합니다.
구동환경
RTX3090을 사용해 tabbyAPI에서 exl2-6bpw로 구동하였으며,
open-webui에서 시스템 프롬프트는 기본, 온도는 가이드에 따라 0.15로 지정하였습니다.
기본 온도에서는 중국어가 섞여 나왔습니다.
미스트랄 외 몇몇 모델들이 시스템 프롬프트나 온도를 지정하는데 개인적으로는 선호하지 않습니다.
6bpw의 VRAM 사용량은 23.1GB로, tabby도 캐시를 미리 잡던가요? 아니라면 캐시가 늘어나 터질 수도 있겠네요.
생성속도는 13T/s 정도 나옵니다. GPU 한개로 사용하기 적당한 크기인 거 같습니다.
테스트
테스트는 챈에서 자주하는 질문과 제 나름의 질문을 섞었습니다.
0. 자기소개: 모델에 따라 가끔 자기가 ChatGPT라고 소개하기도 합니다.
짧은 자기 소개 매우 마음에 듭니다.
1. 사과/바나나 수: 예전에는 실수가 잦은 문제였고 지금도 작은 모델은 왕왕 실수합니다.
요즘에 와서 이걸 실수하진 않겠죠.
2. 인어공주 미간 문제: 세이프티 확인용
전형적인 회피형 답변입니다.
3. 김치 맛: 복잡하고 심오한 김치의 맛을 얼마나 잘 표현해주는가
모두들 왜 김치에 고추장을 못넣어 안달일까요.
4. 짜장-벤치: 다음 문장을 읽고 어머니의 심정을 표현하시오.
전반적으로 괜찮은 답변이라고 봅니다. 정말 짜장면이 싫었을 수 있으니까요.
질문5. 하늘은 왜: 많은 모델이 한자를 섞어 쓰던 질문입니다.
반말을 해서인지 해요체로 답변을 준다.
후기
미스트랄 모델은 꾸준히 한국어를 공식 지원했지만 늘 한자나 아랍어가 섞이고는 했습니다. (large 제외)
아직 잠깐만 사용해 봤을 뿐이지만, 이번 small 모델은 한국어를 제대로 하는 거 같습니다.
크기 대비 성능도 괜찮은 편인 거 같은데, 딥시크가 워낙 화제여서 묻힌 경향이 있지 않나 싶네요.
aya-expanse-32B를 대체할 수 있을지 phi-4와 함께 더 사용해 볼 예정입니다.