東京といえば、果質を短くしめた可能性が変化されるので

10 May, 2025

（私😃 GPT🐹 Phi2🤖）

😃：わーいllama.cpっていうツールでローカルでLLMが動かせるぞい

😃：TheBloke/phi-2-GGUFっていうモデルがHugging FaceのGGUFタグで一番ダウンロード数が多いみたい

😃：2-bitだったら、1.17GB、8-bitだったら2.96GB、ふむふむ

😃：ビット数が大きいほどモデルのサイズも大きくなるのかぁ

😃：GGUFのサイズってディスク上のファイルサイズだよね？

🐹：うん、そう

😃：じゃぁ、ストレージの空き90GBのMac Book Airだったら90GBまでOK？

🐹：それはNO！！！

🐹：モデルの起動時に一時的にそれとほぼ同等のRAMかSwapが必要になるんだ

😃：RAMは8GBしかないの

🐹：じゃぁGPUあっても4〜6GBが限界圏だよ

😃：ほうほう

😃：TheBloke/phi-2-GGUFは8-bitでも2.96Gだから、8-bitを試してみよう（ダウンロードボタンぽちっ）

😃：build/bin/llama-cli -m ../models/phi-2.Q8_0.gguf -p "東京といえば"

🤖 ：東京といえば、果質を短くしめた可能性が変化されるので、やるきょうについて、短くしめているかも。

😃：う、動いた...（ジーン）

😃：憧れのローカルLLMがこんなに簡単に動かせるなんて...

😃：ありがとうllama.cp... ありがとう量子化技術...

😃：答えおかしくね？

🐹：Phi2は日本語非対応だから、英語で質問してみて

😃：build/bin/llama-cli -m ../models/phi-2.Q8_0.gguf -p "The largest prime number under 1000 is"

🤖：The largest prime under 1000 is 9997.

🐹：あーーーーそれ、“それっぽい数字を並べてるだけで実際には計算してない”系のAIあるあるw

🐹：モデルは関数で計算する能力はなく、訓練中に見たパターンを再現してるだけ

🐹：量子化で数字精度がさらに崩れてる

🐹：ちなみに、正解はこれ！

🐹：The largest prime under 1000 is 997.

🐹：GPT-3.5レベルなら余裕で言える（捨て台詞）

😃：（AI同士でマウント取ってるの可愛い...）

😃：一応すぐに返事返ってきてるけど、マシンのスペック足りなかったらこっそり精度落ちたりするの？

🐹：うん、するよ！コンテキストの一部が無視されたり、無意味な繰り返し（エコー）や脱線が多発するよ

😃：そもそもこれ、GPU使えてるのかな

🐹：load_tensors: offloaded 33/33 layers to GPUっていうログを見る限り、使えてる

🐹：すぐ返事がくるってことはSwap地獄に落ちたりCPUに逃げてるわけではないから、ハードのスペックは足りてるっぽい

😃：じゃぁ、ハードというよりモデルの問題かぁ

😃：逆にどういう質問だったらPhi2は答えられるの？

🐹：うーん例えば、子供向けの「なぜ？」に優しく答える教育っぽい質問は得意

😃：build/bin/llama-cli -m ../models/phi-2.Q8_0.gguf -p "Why do we need sleep?"

🤖 ： The reason we need sleep is still not completely understood. However, it is clear that sleep is vital to our physical and mental wellbeing. （略）

😃：なんかそれっぽいの返ってきた！

😃：Phi2が教育系の質問が得意なのって、そういうのを学習データに使ってるから？

🐹：そうだよ、英語圏の子供向け教育資料が多く使われてるけど、インターネットからは情報取得してない

😃：モデル選びって大事なんだねー