メンバー

すでぃー X: @sudy_super

使用したいVRAM

102~153GB

詳細

LLMのためのコンテキスト圧縮エンコーダ(Context Compressive Encoder)です。

LLaVAを参考に、128kシーケンス長で0.125BパラメータのMistralモデルを50~100b tokensで事前学習した後、二層の線形層を挟んでターゲットLLMに接続し、長いシーケンスのinstructionデータセットでinstruction-tuningをすることで、単純な長いシーケンス長のLLMに比べて長文処理性能を維持しつつ推論コストを減らすことができます。理論上、これにより推論コストの最大86%を低減でき、シーケンス長拡張前より使用するVRAMを増やすことなく推論が実行できます。

「Claude3やGPT-4のような長文処理をローカルLLMでもやりたい!」

一度でもそう思ったことはありませんか?

Co-Encoderなら、それが可能です。

圧倒的に低減されたVRAMで、100k超えの長文処理性能を体感してみませんか?