Ryzen AI Max+ 396(EVO-X2)でgpt-oss-120bを動かしてみた

2025年9月26日 2025年9月26日 lcs_ishido

Ryzen AI Max+ 396(EVO-X2)とは？

プログラマーの石戸です。

先月OpenAIからオープンソースモデルのgpt-oss:20b / 120bが公開され、AI界隈をずっと牽引してきた大手が久しぶりのオープンソースのAIを出すということで非常に盛り上がっておりました。gpt-oss-20bは16GBのVRAMにすべて入り、推論も高速です。ただし120bは60GBほどあり気軽に動かせるものではありません。そんな中、Ryzen AI Max+ 396を搭載したEVO-X2というミニPCで"動かした！"という人をちらほら見かけました。（検証や投稿は貴重でとても参考になりました。ありがとうございます。）

そこでEVO-X2が気になったので調べてみると、ユニファイドメモリ（スマホやマックブックなどのようにCPU/GPUでメモリを共有する）を採用した128GBメモリでおおよそ30万円でした。メモリの多さから考えると破格です。もちろんこのミニPCでAIがクラウドサービスのように動くのであればNvidiaの株は急落しているはずですので、そこまでの期待は禁物です。ですが開発マシンとそんなに差が無い価格帯で、gpt-oss-120bの検証できるのであればやってみたなということで、社長に聞いてみたら快くOKを頂きました。

Ryzen AI Max+ 396を搭載したモデルは何個かありました。当時調査した限りですと日本向けに販売しているのはこのEVO-X2とHPのノートPCのみでした。ノートPCは必要なかったのと、EVO-X2は日本のAmazonでAmazon倉庫からの発送で注文できるようだったのでEVO-X2に決めました。在庫をウォッチしてすかさず社長にポチってもらいました。今はまだ業務として検証しているわけではなく趣味の範囲を超えないため「風が吹けば桶屋が儲かる」かのように、この記事によって巡り巡ってEVO-X2分の効果が出ると信じて執筆いたします。

せっかくなのでEVO-X2のタスクマネージャの画像を載せます。メモリもCPUスレッド数も普段のPCとの違いが大きく感動です。ちなみに最適化が進んだせいかWidowsのllama.cpp-vulkanでもかなり良いパフォーマンスが出たためWindowsを使っています。Ubuntuは経験が浅くデュアルブートしようかどうしようかと悩んでいたところだったので良かったです。また、電力設定はデフォルトのバランス設定です。パフォーマンス設定ではさらに１割ほど性能が上がると検証していた人がいましたが、熱が怖かったので据え置きにしました。この暑い中、推論中は90度に達しないぐらいの温度でした（今日は外が23度程度と寒いせいか、70度も超えません）思ったより熱の心配は大丈夫そうで、ミニPCの箱自体を触るとヒヤリする素材なので排熱は結構気を使って作られているのかもしれません。ファンの音に関しては近くに超うるさいサーキュレータがあるので気になりません・・。

Warning

先に伝えておきますと、実用的か（仕事でつかえるか）どうかはまだわかりません。検証された先駆者の方に大変お世話になったので、私もこのEVO-X2を使って検証したものを投稿いたします。ベンチのみやセットアップ方法のみの記事ではなく、うんちくが多くて読みづらかったら申し訳ないです。

バックエンドプロバイダ llama-sever

まず今回の検証の環境ですが、前回のAI記事を書いたときと少し変わっており、今回はllama-serverを使います。ローカルAIを動かすプロバイダーとしてよく名前に上がるのが、Ollama、LmStduio、vLLM、llama-serverで、それぞれの説明を軽くします。

Ollama

この中でOllamaは初心者向けに設計されており、非常に簡単に動作させることが出来ます。私もOllamaを使って知識が増え大変お世話になりました。ただOllamaの動作パフォーマンスを他と比較したところだいぶ差がありました。コミュニティのパフォーマンスについて触れているスレッドでは、利便性を優先していると言っていたので、プロジェクトの方針によるものだと思います。

Ollamaのバックエンドはllama.cpp（≒ggml）で出来ていますがここまでパフォーマンスに差が出るのはちょっと不思議です。フロントエンドは年初ぐらいにGo言語で書き換えられていました（確かにGo言語は楽そうだなぁ）。初めて触るなら断然Ollamaですが速度を突き詰めたい場合他を選ぶのはありです。

LmStudio

少し前は個人のみ無料だったようですが私が触ろうと思ったときには企業も無料利用可能になったようでした。もしかしたらフリーになったことで目につきやすくなったのかもしれません。触ってみるとUIもよくできていて、モデルのダウンロードも非常にお手軽でした。ただしllama.cppの「--n-cpu-moe」相当のオプションが無く、出来るだけVRAMにモデルを載せることが出来ないようでしたので採用を見送りました。しっかりVRAMを使い切ることでパフォーマンスが全く違います。

LmStduioもバックエンドはllama.cppを使っているようですが、どのぐらいカスタマイズしているかは確認していません。

vLLM

こちらは触ってみたかったのですが時間が取れず全く調査できていません。早いのか遅いのかも分かっていません。

llama-server

llama.cppプロジェクト内で実装されているサーバーです。Ollamaと比べて動作パフォーマンスが良く、オプションも豊富です。前回の記事を書いたときには、まだexampleフォルダに入っていて推論サーバの実装例という位置づけでした。現在ではToolsフォルダに入っており、対応は以前に比べより前向きなのではと思っています。その生い立ちのせいか数々のフロントエンドサービスでOllamaの選択項目は有りますが、llama-serverで動かすマニュアルはあまり見かけません。しかしその場合でもOpenAI互換として登録すれば動きます。

「--n-cpu-moe」オプションは少ないVRAMにモデルがすべて乗らない場合に最適な調整をすることが出来ます。例えば、gpt-ossやQwen3-30B-3AなどのMoEモデルは、MoE部分をCPUにすることでパフォーマンスをなるべく保ちながら推論させることが出来ます。この設定は一括ですべてCPUにするのではなく、CPUで何個のMoEを動かすか指定できます。Ollamaなど、バックエンドの細かいオプションはそのプロジェクトの方針によって調整できない場合があります。私もRTX 4070でgpt-ossがここまで高速に動くとは思っていませんでした。

Information

ちなみに、Gemma3リリース時の画像対応の際には、ollamaは画像対応できてるのになぜllama-serverでは出来ないんだ？と盛り上がってました。需要の多さからか、対応が大変と言っていたのに数週間で対応されましたし、脱exampleをしたので今後も目が離せません。

gpt-oss-20bの実行パフォーマンス

Information

ggml-orgのモデルを使っています。redditのスレッドでmxfp4は内部ではq8との発言を見つけました。私は先ほどまでUnslothのUD-4Qの方が全然早いぞ！と思って使っていましたが、どうやら量子化サイズが違うようです。ネイティブがmxfp4でそんなにサイズが変わらないため、カタログ精度が出るようにggml-orgのものを使いました。

まずは基準として手元でもともと触っていたRTX 4070(12GB)の速度を載せます。残念ながら16GBのVRAMを積んだGPUが手元に無いため、VRAMにすべてが収まらない12GBのVRAMでのテストになりますが、12GBのミドルスペックを持っている方は多いと思いますので参考になる方が居れば幸いです。

また、基本的にフラッシュアテンションはオンで問題なさそうですが、ベンチではオフで計測している方も多いので両方取っています。

RTX 4070

llama-bench

pp=5000/tps、tg=138/tpsも出ています。（pp=プロンプト処理、tg=テキスト生成）

プロンプトを増やしました。どうやらpp8192はメモリから溢れたようで急激に遅くなっています。16384は処理が返ってこなかったので中断しました。

5000！？と衝撃でした。さすがNvidia、さすがOpenAI、さすがllama.cppと思いました。ハードからフロントエンドまですべてそろってこのパフォーマンスが実現されてるんだと再認識しました。

llama-benchでは--n-cpu-moeが指定できませんのであとは実測を行います。

実測　コンテキストサイズ8k

redditでおススメしている人がいたので、公式推奨値のmin-p 0からmin-pを0.01に上げています。これすることでサンプリングタイムが数秒かかってものがだいぶ短くなりました。（※正確なアルゴリズムは見ていませんので間違っていたらすみません。見た限りだと、サンプリングはCPUで全語彙に対して、様々なアルゴリズム（top-pやtop-kなど）のフィルタリングやソートを順に掛けていきます。gpt-ossは20万越えの単語がありますので、計算コストは無視できません。そこでまずmin-pでフィルタリングすることで早くなるのではないかと思いました。）

llama-cli.exe --no-mmap --jinja --reasoning-format none -ngl 999 -fa on -m ".\ggml-org\gpt-oss-20b-mxfp4.gguf" -c 8192 --temp 1.0 --top-p 1.0 --top-k 0 --min-p 0.01 --repeat-penalty 1.05

pp=4088/tps、tg=104/tps

実測　コンテキストサイズ64k

12GBのVRAMに収まらないので--n-cpu-moe 4にしています。

llama-cli.exe --no-mmap --jinja --reasoning-format none -ngl 999 -fa on -m ".\ggml-org\gpt-oss-20b-mxfp4.gguf" -c 65536 –-n-cpu-moe 4 --temp 1.0 --top-p 1.0 --top-k 0 --min-p 0.01 --repeat-penalty 1.05

pp=2030/tps、tg=46/tps（ちなみに、8kトークンのプロンプトだとpp=2911/tps, tg=61/tpsでした）

実測　コンテキストサイズ128k

12GBのVRAMに収まらないので--n-cpu-moe 8にしています。

llama-cli.exe --no-mmap --jinja --reasoning-format none -ngl 999 -fa on -m ".\ggml-org\gpt-oss-20b-mxfp4.gguf" -c 131072 –-n-cpu-moe 8 --temp 1.0 --top-p 1.0 --top-k 0 --min-p 0.01 --repeat-penalty 1.05

pp=1250/tps、tg=30/tps（ちなみに、8kトークンのプロンプトだとpp=1841/tps、tg=44/tpsでした）

64kコンテキストサイズでの動作速度がpp=2k/tpsとtg=46/tpsですので、60kプロンプトを食わせても30秒程度で出力され始め、30tpsを超えていれば読む分には十分な速度が出ます。コードの出力では50tpsあると嬉しいですがそれでも十分です。

Information

Gemma3のころにllama.cppのKVキャッシュのメモリ管理実装ががらりと変わり、モデルがスライドウインドウアテンションを使っている場合、KVキャッシュの消費量も激減しました。その効果からか、コンテキストサイズがかなり増えてもVRAMの消費量は驚くほど少ないです。

昨今のエージェントですと、32kはすぐに使い切りますが、64kだと結構動いてくれます。例えばRooCodeなどのエージェントのプロンプトはおおよそ10kトークン、1000行のソースはおおよそ10kトークンぐらいあります。つまり２ソース添付するだけで32kを使い切ってしまいますが、逆に64kあればそれなりに処理できるということです。よって今回は64kが実用的なラインとします。（そのぐらいで動くようにエージェントが賢くコンテキストを使いまわしているんだろうなと使っていて感じました）

RooCodeはソースに行番号を付けてLLMに入力しています。そしてモデルが吐き出すコードを編集部分のみにすることで、最小限の出力（＆精度）と高速なマージを実現しているようです。Continue.devは行番号は付けておらず、実際にモデルの出力が安定しなかったりマージがうまくいかなかったりします。行番号の分だけトークンをかなり消費してしまいますが、精度の向上には一躍かっているようで、参考になります。

RTX 4070はgpt-oss:20bを動かす分にはとてもパワフルなことがわかりました。では本題のEVO-X2はどうでしょう。