LLMの「量子化」ってなに？スマホでもAIを動かせる秘密を解説

大規模言語モデル（LLM）をもっと軽く、速く動かすためによく使われる技術に量子化（quantization）があります。

よくわからない技術だったので調べてみることにしました。

名前を聞くと「物理っぽくて難しそう…」と思うかもしれませんが、実は私たちの身近な体験に例えると、とてもシンプルに理解できました。

量子化とは？

量子化とは、細かすぎる情報をざっくりした段階に置き換えることです。
物理学で「エネルギーが量子化される」とは、なめらかに変化するものを階段状に区切ることを指します。LLMでも同じように、内部で使っている膨大な小数（重み）を「段階の少ない数字」に丸めていくのです。

「73.876点」なんて細かい数字を記録しても意味がありません。「74点」で十分ですよね。小数点以下を切り捨てるのが量子化のイメージです。

4K画質の写真をSNSにアップするとき、わざわざ超高画質のまま送らなくても、圧縮して軽くすれば十分きれいに見えます。これと同じように、AIの中の数字もざっくりさせても実用に耐えられるのです。

音楽はもともとアナログですが、CDにするときにデジタル化され、さらにMP3に圧縮して持ち歩きやすくします。

多少音質は落ちても、十分楽しめます。これも量子化と同じ発想です。

豆知識: 量子化はスマホのAIアプリに欠かせない技術です。量子化なしでは、巨大モデルをスマホに収めるのはほぼ不可能です。

通常、LLMは32ビット（FP32）の小数で重みを持っています。量子化ではこれを

のように少ない桁数に変換します。
例えば「0.123456」を「0.123」や「0.125」に丸めるイメージです。
これだけでデータ量は大幅に減り、計算も軽くなります。

補足: 最近は「どの部分を丸めても問題ないか」を見極める研究が進み、性能を保ちながら効率化できるようになっています。

LLMの量子化とは、「細かすぎる数字を段階を減らして軽くする技術」です。
写真を圧縮したり、音楽をMP3に変換したりするのと同じで、便利に使える範囲で「ざっくり」させるのです。

このおかげで、スマホでAIを動かしたり、省エネで大規模なAIを扱えるようになっています。名前は難しそうですが、イメージはとてもシンプルなものでした。