お知らせ
現在サイトのリニューアル作業中のため、表示が崩れているページが存在することがあります。
久々にPC構成を大刷新してから三ヶ月ほど経過しているが、ローカルLLMを叩いたときのパフォーマンスが前回と比べてどれほど上がるか計測してみた。
デバイス | 前回 | 今回 |
---|---|---|
CPU | Intel Core i7 13700 | Intel Core Ultra 7 265F |
GPU | GeForce RTX 4070 Ti | GeForce RTX 5070 Ti |
MEM | Crucial Ballistix BL2K16G32C16U4B(DDR4-3200 16GB) * 4 | Crucial CT2K16G56C46U5(DDR5-5600 16GB) * 4 |
M/B | ASUS TUF GAMING Z790-PLUS D4 | ASRock Z890 Pro RS |
前回はストップウォッチで計測していたが、今回はOpenWebUIのメタ情報から確認した。
指標 | 値 |
---|---|
response_token/s | 120.74 |
prompt_token/s | 255.92 |
total_duration | 22796593800 |
load_duration | 11155098300 |
prompt_eval_count | 73 |
prompt_tokens | 73 |
prompt_eval_duration | 285245200 |
eval_count | 1371 |
completion_tokens | 1371 |
eval_duration | 11355103800 |
approximate_total | 22s |
total_tokens | 1444 |
これは前回使っていないが標準っぽいので測ってみた。
指標 | 値 |
---|---|
response_token/s | 10.65 |
prompt_token/s | 39.72 |
total_duration | 85295369100 |
load_duration | 4291682600 |
prompt_eval_count | 13 |
prompt_tokens | 13 |
prompt_eval_duration | 327282600 |
eval_count | 859 |
completion_tokens | 859 |
eval_duration | 80674730800 |
approximate_total | 1m25s |
total_tokens | 872 |
前回は出力に3分半程度かかっていたが、今回は一分半程度と、かなり良好な結果となった。
指標 | 値 |
---|---|
response_token/s | 51.88 |
prompt_token/s | 127.3 |
total_duration | 14512642900 |
load_duration | 2966192400 |
prompt_eval_count | 17 |
prompt_tokens | 17 |
prompt_eval_duration | 133547400 |
eval_count | 592 |
completion_tokens | 592 |
eval_duration | 11411474600 |
approximate_total | 14s |
total_tokens | 609 |
前回は出力に1分程度かかっていたが、今回は14秒程度と、非常に良好な結果となった。
前回と比べるとかなり高速化されており、生成速度だけを見れば十分実用ラインに上がっていているように感じた。しかし回答の品質が悪くそのままでは使えないので、恐らくRAGなどとして使えるようにカスタムしてやっと使えてくるみたいなところがあるのだろうか?
何はともあれ、現実的な速度でローカルLLMが動くようになったのはうれしい。