AIの「記憶喪失」を克服する新技術

テクノロジー

AIが一度に数百ページもの長文ドキュメントを、記憶を失うことなく、まるで人間のように「一度だけ見て(ワンショット)」解析できる技術が登場しました。

これは、従来のAIがページごとに記憶をリセットしていた限界を打ち破るブレークスルーです。Baiduの研究チームが開発した「Unlimited OCR」は、Reference Sliding Window Attention (R-SWA) という新しい注意機構を採用しています。

この技術は、AIが「グローバル参照(ドキュメント全体を記憶)」と「ローカル生成(直前の情報のみを記憶)」という二つのパスで処理を行うことで、人間が長文をコピーする際のような効率と記憶保持能力を模倣しています。

これにより、AIは書籍全体のような長大なドキュメントを、一度のフォワードパス(計算処理)で解析することが可能になります。これは、数ページごとに処理を分割する必要があった従来の手法とは一線を画します。

Unlimited OCRは標準で32Kというシーケンス長に対応しており、数十ページを一度の処理で読み解けます。この技術はOCRだけでなく、自動音声認識(ASR)や翻訳など、他の長系列データ処理タスクにも応用可能な汎用的なメカニズムです。

Baiduは、この技術を基盤としたドキュメントインテリジェンスに特化した40億パラメータの統合型エンドツーエンドモデル「Qianfan-OCR」も発表しています。Qianfan-OCRは、OmniDocBench v1.5で93.12%という高いスコアを達成しました。

AIが長文を処理する際に、一度にすべてを記憶しきれず、途中で内容を忘れてしまうような状況は、まるで人間が一度読んだだけで内容を記憶しているかのように、AIに長文を扱わせることで解消されます。

従来のAIが何十回にも分けてページを処理していたのを、Unlimited OCRは一度で完了させます。これは、数ページしかない文書を、一冊の本を読むかのように一気に処理する感覚です。

この「無限OCR」は、AIの長文処理能力を飛躍的に向上させ、ドキュメント解析の新たな時代を切り開くでしょう。


関連記事


参考にした情報源: github.com

コメント

タイトルとURLをコピーしました