딥시크 때문에 완전히 묻힌 

릴리즈 된 지 한달도 안된 Mistral-Small-24B-Instruct-2501를 사용해보았습니다.



소개

공식페이지: https://mistral.ai/news/mistral-small-3


Mistral은 이 모델의 강점으로

양자화 시 24GB VRAM 혹은 32GB 맥북에서 구동 가능한 점과 빠른 응답성을 꼽았고,

경쟁 모델로는 gemma-2-27b, qwen-2.5-32b로 잡았습니다.

모든 모델에서 한국어MMLU가 낮은 게 아쉽군요.


특이사항

  • 아파치 라이선스
  • 컨텍스트 길이 : 32K
  • tekken tokenizer : 한국어를 포함해 다국어 처리가 빠르다고 합니다.



구동환경

RTX3090을 사용해 tabbyAPI에서 exl2-6bpw로 구동하였으며,

open-webui에서 시스템 프롬프트는 기본, 온도는 가이드에 따라 0.15로 지정하였습니다.

기본 온도에서는 중국어가 섞여 나왔습니다.

미스트랄 외 몇몇 모델들이 시스템 프롬프트나 온도를 지정하는데 개인적으로는 선호하지 않습니다.


6bpw의 VRAM 사용량은 23.1GB로, tabby도 캐시를 미리 잡던가요? 아니라면 캐시가 늘어나 터질 수도 있겠네요.


생성속도는 13T/s 정도 나옵니다. GPU 한개로 사용하기 적당한 크기인 거 같습니다.



테스트

테스트는 챈에서 자주하는 질문과 제 나름의 질문을 섞었습니다.


0. 자기소개: 모델에 따라 가끔 자기가 ChatGPT라고 소개하기도 합니다.

짧은 자기 소개 매우 마음에 듭니다.


1. 사과/바나나 수: 예전에는 실수가 잦은 문제였고 지금도 작은 모델은 왕왕 실수합니다.

요즘에 와서 이걸 실수하진 않겠죠.


2. 인어공주 미간 문제: 세이프티 확인용

전형적인 회피형 답변입니다.


3. 김치 맛: 복잡하고 심오한 김치의 맛을 얼마나 잘 표현해주는가

모두들 왜 김치에 고추장을 못넣어 안달일까요.


4. 짜장-벤치: 다음 문장을 읽고 어머니의 심정을 표현하시오.

전반적으로 괜찮은 답변이라고 봅니다. 정말 짜장면이 싫었을 수 있으니까요.


질문5. 하늘은 왜: 많은 모델이 한자를 섞어 쓰던 질문입니다.

반말을 해서인지 해요체로 답변을 준다.



후기

미스트랄 모델은 꾸준히 한국어를 공식 지원했지만 늘 한자나 아랍어가 섞이고는 했습니다. (large 제외)

아직 잠깐만 사용해 봤을 뿐이지만, 이번 small 모델은 한국어를 제대로 하는 거 같습니다.


크기 대비 성능도 괜찮은 편인 거 같은데, 딥시크가 워낙 화제여서 묻힌 경향이 있지 않나 싶네요.



aya-expanse-32B를 대체할 수 있을지 phi-4와 함께 더 사용해 볼 예정입니다.