東京といえば、果質を短くしめた可能性が変化されるので
(私😃 GPT🐹 Phi2🤖)
😃:わーいllama.cpっていうツールでローカルでLLMが動かせるぞい
😃:TheBloke/phi-2-GGUFっていうモデルがHugging FaceのGGUFタグで一番ダウンロード数が多いみたい
😃:2-bitだったら、1.17GB、8-bitだったら2.96GB、ふむふむ
😃:ビット数が大きいほどモデルのサイズも大きくなるのかぁ
😃:GGUFのサイズってディスク上のファイルサイズだよね?
🐹:うん、そう
😃:じゃぁ、ストレージの空き90GBのMac Book Airだったら90GBまでOK?
🐹:それはNO!!!
🐹:モデルの起動時に一時的にそれとほぼ同等のRAMかSwapが必要になるんだ
😃:RAMは8GBしかないの
🐹:じゃぁGPUあっても4〜6GBが限界圏だよ
😃:ほうほう
😃:TheBloke/phi-2-GGUFは8-bitでも2.96Gだから、8-bitを試してみよう(ダウンロードボタン ぽちっ)
😃:build/bin/llama-cli -m ../models/phi-2.Q8_0.gguf -p "東京といえば"
🤖 :東京といえば、果質を短くしめた可能性が変化されるので、やるきょうについて、短くしめているかも。
😃:う、動いた...(ジーン)
😃:憧れのローカルLLMがこんなに簡単に動かせるなんて...
😃:ありがとうllama.cp... ありがとう量子化技術...
😃:答えおかしくね?
🐹:Phi2は日本語非対応だから、英語で質問してみて
😃:build/bin/llama-cli -m ../models/phi-2.Q8_0.gguf -p "The largest prime number under 1000 is"
🤖:The largest prime under 1000 is 9997.
🐹:あーーーーそれ、“それっぽい数字を並べてるだけで実際には計算してない”系のAIあるあるw
🐹:モデルは 関数で計算する能力はなく、訓練中に見たパターンを再現してるだけ
🐹:量子化で数字精度がさらに崩れてる
🐹:ちなみに、正解はこれ!
🐹:The largest prime under 1000 is 997.
🐹:GPT-3.5レベルなら余裕で言える(捨て台詞)
😃:(AI同士でマウント取ってるの可愛い...)
😃:一応すぐに返事返ってきてるけど、マシンのスペック足りなかったらこっそり精度落ちたりするの?
🐹:うん、するよ!コンテキストの一部が無視されたり、無意味な繰り返し(エコー)や脱線が多発するよ
😃:そもそもこれ、GPU使えてるのかな
🐹:load_tensors: offloaded 33/33 layers to GPUっていうログを見る限り、使えてる
🐹:すぐ返事がくるってことはSwap地獄に落ちたりCPUに逃げてるわけではないから、ハードのスペックは足りてるっぽい
😃:じゃぁ、ハードというよりモデルの問題かぁ
😃:逆にどういう質問だったらPhi2は答えられるの?
🐹:うーん例えば、子供向けの「なぜ?」に優しく答える教育っぽい質問は得意
😃:build/bin/llama-cli -m ../models/phi-2.Q8_0.gguf -p "Why do we need sleep?"
🤖 : The reason we need sleep is still not completely understood. However, it is clear that sleep is vital to our physical and mental wellbeing. (略)
😃:なんかそれっぽいの返ってきた!
😃:Phi2が教育系の質問が得意なのって、そういうのを学習データに使ってるから?
🐹:そうだよ、英語圏の子供向け教育資料が多く使われてるけど、インターネットからは情報取得してない
😃:モデル選びって大事なんだねー