Noesworthy

東京といえば、果質を短くしめた可能性が変化されるので

(私😃 GPT🐹 Phi2🤖)

😃:わーいllama.cpっていうツールでローカルでLLMが動かせるぞい

😃:TheBloke/phi-2-GGUFっていうモデルがHugging FaceのGGUFタグで一番ダウンロード数が多いみたい

😃:2-bitだったら、1.17GB、8-bitだったら2.96GB、ふむふむ

😃:ビット数が大きいほどモデルのサイズも大きくなるのかぁ

😃:GGUFのサイズってディスク上のファイルサイズだよね?

🐹:うん、そう

😃:じゃぁ、ストレージの空き90GBのMac Book Airだったら90GBまでOK?

🐹:それはNO!!!

🐹:モデルの起動時に一時的にそれとほぼ同等のRAMかSwapが必要になるんだ

😃:RAMは8GBしかないの

🐹:じゃぁGPUあっても4〜6GBが限界圏だよ

😃:ほうほう

😃:TheBloke/phi-2-GGUFは8-bitでも2.96Gだから、8-bitを試してみよう(ダウンロードボタン ぽちっ)

😃:build/bin/llama-cli -m ../models/phi-2.Q8_0.gguf -p "東京といえば"

🤖 :東京といえば、果質を短くしめた可能性が変化されるので、やるきょうについて、短くしめているかも。

😃:う、動いた...(ジーン)

😃:憧れのローカルLLMがこんなに簡単に動かせるなんて...

😃:ありがとうllama.cp... ありがとう量子化技術...

😃:答えおかしくね?

🐹:Phi2は日本語非対応だから、英語で質問してみて

😃:build/bin/llama-cli -m ../models/phi-2.Q8_0.gguf -p "The largest prime number under 1000 is"

🤖:The largest prime under 1000 is 9997.

🐹:あーーーーそれ、“それっぽい数字を並べてるだけで実際には計算してない”系のAIあるあるw

🐹:モデルは 関数で計算する能力はなく、訓練中に見たパターンを再現してるだけ

🐹:量子化で数字精度がさらに崩れてる

🐹:ちなみに、正解はこれ!

🐹:The largest prime under 1000 is 997.

🐹:GPT-3.5レベルなら余裕で言える(捨て台詞)

😃:(AI同士でマウント取ってるの可愛い...)

😃:一応すぐに返事返ってきてるけど、マシンのスペック足りなかったらこっそり精度落ちたりするの?

🐹:うん、するよ!コンテキストの一部が無視されたり、無意味な繰り返し(エコー)や脱線が多発するよ

😃:そもそもこれ、GPU使えてるのかな

🐹:load_tensors: offloaded 33/33 layers to GPUっていうログを見る限り、使えてる

🐹:すぐ返事がくるってことはSwap地獄に落ちたりCPUに逃げてるわけではないから、ハードのスペックは足りてるっぽい

😃:じゃぁ、ハードというよりモデルの問題かぁ

😃:逆にどういう質問だったらPhi2は答えられるの?

🐹:うーん例えば、子供向けの「なぜ?」に優しく答える教育っぽい質問は得意

😃:build/bin/llama-cli -m ../models/phi-2.Q8_0.gguf -p "Why do we need sleep?"

🤖 : The reason we need sleep is still not completely understood. However, it is clear that sleep is vital to our physical and mental wellbeing. (略)

😃:なんかそれっぽいの返ってきた!

😃:Phi2が教育系の質問が得意なのって、そういうのを学習データに使ってるから?

🐹:そうだよ、英語圏の子供向け教育資料が多く使われてるけど、インターネットからは情報取得してない

😃:モデル選びって大事なんだねー

#tech