マトリョーシカとトロピカル

セミナーの申込み開始しました

申込みはこちらから:https://matryoshka.peatix.com/

セミナーの概要

AI技術の最近の動向について

12月、1月、2月と大規模言語モデルの数学的モデルの話が続いたので、今月は、現在AIの分野で関心を集めている話題を二つ取り上げようと思います。

一つは、今年の一月に発表された、OpenAiの新しいembedding モデルについてです。

"New embedding models and API updates"
https://openai.com/blog/new-embedding-models-and-api-updates

もう一つは、中国の研究者が展開している大規模言語モデルをはじめとして、ニューラルネットワークでの計算の「1bit」化の動きです。有名なのはこの論文だと思います。

"The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
https://arxiv.org/abs/2402.17764

3月のセミナーは、この二つのトピックを中心にお話ししようと思っています。(もっとも、途中でテーマが変わるかもしれませんので、その時は、悪しからず。)

この二つのトピックを扱うセミナーのタイトルが、なぜ、「マトリョーシカとトロピカル」なのでしょうか?

Matryoshka Representation Learning

embeddingは、自然言語やコードなどの様々なコンテンツの意味や概念を、多次元ベクトル空間の一点の座標を表す数字の列で表現する技術です。embeddingは、現代のAI技術のもっとも革新的で基本的な技術です。

embedding技術も日々発展を続けています。embedding技術の最近の動向で、もっとも注目をあつめているのが、「マトリョーシカ表現学習」と呼ばれるものです。

"Matryoshka Representation Learning"
https://arxiv.org/abs/2205.13147

次のショートムービーでは、は、「マトリョーシカ」を概説しています。

スライドのpdf

ニューラル・ネットワークとTropical Algebra

ディープ・ニューラル・ネットワークは、現代のAI技術のすべての基礎にあるものです。それは、皆さんがご存知のように、AIのさまざまの分野で目覚ましい成功を収めてきました。

ただ、なぜニューラル・ネットワークがそのような能力を持つのかについては、十分に理解されているわけではありません。特に、その振る舞いの基礎にはどのような数学があるのかについての研究は、ほとんど成果のないままでした。

それが、意外な形で「突破口」が発見されたのです。

それは「意外」ではないかもしれません。なぜなら、その「突破口」は、21世紀に急成長した、代数幾何の活発な研究領域であるTropical数学の中に見つけられたからです。

AIの研究者は、必要な数学の成熟というか大衆化に、まだ出会っていなかっただけなのかもしれません。
同様に、代数幾何の数学者は、Tropical Algebraが。ニューラルネットワークの基礎理論に応用できることに気づかなかったのです。

次の論文は、重要だと思います。

 "Tropical Geometry of Deep Neural Networks"
 https://arxiv.org/abs/1805.07091

次のショートムービーは、「トロピカル」を概説しています。

スライドのpdf

Matryoshka Representation Learning論文を読む

AbstractとIntroduction

この論文の主要なな貢献は「マトリョーシカ表現学習」(MRL: Matryoshka Representation Learning)である。

それは、異なる粒度で情報をエンコードし、単一の埋め込みで下流タスクの計算上の制約に適応することができる。

MRLは既存の表現学習パイプラインに最小限の変更を加えるだけで、推論やデプロイ時に追加コストは発生しない。

MRL は独立に学習された低次元表現と同等以上の精度と豊かさを持つ、粗いものから細かいものまでの(coarse-to-fine )表現を学習する。

スライドのpdf

Adaptive Classification

このセッションでは、マトリョーシカembedding を利用すると、従来の方法と比べるとはるかに低い次元のembedding で分類が可能になるというAdaptive Classificationを紹介します。

120万枚の画像のImageNetの画像の分類が、37次元のembeddingで可能になると言います。これまで、512次元のembedding を使っていたのと比較すると、512/37 = 13.8… ですので、約14倍の効率化が可能だということです。

スライドのpdf

このセッションでは、MRL論文のAdaptive Retrievalのの前提となっているベクトルで表現されているembeddingを検索するVector Search技術を、最初に確認しておこうと思います。

Googleの画像検索で用いられている技術です。

基本的に、次のblog記事の紹介です。
“Find anything blazingly fast with Google's vector search technology”
https://cloud.google.com/blog/topics/developers-practitioners/find-anything-blazingly-fast-googles-vector-search-technology

スライドのpdf

Adaptive Retrieval

MRLのAdaptive Retrievalは、前回見たような Vector Search(nearest neighbour search)の一層の高速化を目指したものです。基本的なアイデアは、次のようなものです。

まず、与えられたクエリ画像に対して、16次元のような低い次元表現(𝐷_𝑠=16)を用いて 、データベースから、例えば、200個の画像の候補を取得します。(それをショートリスト K = 200と呼んでいます) これは高速に可能です。

次に、その200個の画像に対して、2048次元のような高容量表現(𝐷_𝑟=2048)を用いて、クエリ画像との近さの再ランキングを行います。高次元の2048次元の200画像を素朴に再ランク付けするだけだったら、400KFLOPしかかからないといいます。こうして、最終的な絞り込みを行います。

スライドのpdf

「1-bit LLMs」論文を読む

今回のセミナーのPart 2では、「1-bit LLM」のトピックを取り上げます。
次の論文とそれに先行した論文を中心に取り上げる予定です。

“The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits”
https://arxiv.org/abs/2402.17764

“BitNet: Sling 1-bit Transformers for Large Language Models”
https://arxiv.org/abs/2310.11453

なぜ、1.58bits なのか?

まず最初に確認したいことがあります(皆さん、その理由を、多分、気がついていると思いますが)。

“The Era of 1-bit LLMs” をうたっている第一の論文のタイトルに、なぜ、” All Large Language Models are in 1.58 Bits” という表現が出てくるのでしょうか?

スライドのpdf

BitNet b1.58−− 驚くべきパフォーマンス

スライドのpdf

BitNet -- 1-bit LLM 初号機

先のセッションでは、素晴らしい性能を示した1.58bitのLLMである「BitNet b−1.58」を紹介したのですが、時間の流れは逆になりますが、このセッションから、「1-bit LLM 初号機」ともいうべき「BitNet」について取り上げようと思います。

スライドのpdf

BitNetは、1-bit Transformerを使う

このセッションでは、BitNetのアーキテクチャーを見ていきたいと思います。

BitNetは、Transformerアーキテクチャーに基づいています。ただ、そのTransformerは、以前に紹介したTransformerとは、違うものです。

それは、MetaのLLaMa2で導入されたTransformerの変種に基づいています。

スライドのpdf

1−bitの「重み行列」の導入とBitLinear

このセッションでは、まず、BitNetが、1−bitの情報からなる「重み行列」 (要素が、−1と+1だけ)を、どのように作成しているのか、そのアルゴリズムを紹介しようと思います。

スライドのpdf