YokoLab / Owner & AI Engineer
製造企業N_文書画像認識モデルを用いた決算書情報抽出AIのチューニング
社内DX化の一環として、決算書(BSとPL)からの情報抽出の自動化を目的とするプロジェクトが発足し参画。決算書の画像内にある文字を抽出しjsonデータ化するために、OCRフリーの文書画像認識モデルである「Donut」が選択されたが、参画当時のF1スコアは68.6%であった。このDonutモデルをチューニングし、実運用へ向けて以下の施策提案および実装を行うことでF1スコアを92.0%まで向上させた。 - モデルが未学習の漢字のうち決算書中に頻出の漢字を強化学習した。 - 隣接するテキストが誤って統合され誤認識となる問題を解決するために、 - モデルが生成するクロスアテンションヒートマップに基づく各テキストに対応するバウンディングボックス座標を定義。各バウンディングボックス間のIoU(重なり度合い)から、ルールベースで誤って統合されたテキストを分割した。 - エンコーダの構成とパラメータを調整し、モデルが画像内の小さなテキストや細かい文章特徴により注目できるようにした。 - 文字の小さい複雑なテキストの認識精度向上のために、 - 他メンバーに依頼し入力画像データセットの解像度を960px四方から1600px四方へ変更した。それに伴う入力の設定値変更や節GPUメモリを行うためのコード改修を実施した。 - 文書画像のノイズ除去、2値化、グレースケール化などの前処理を施した。 - trainフェーズのみに、データ拡張を行い一般化能力を向上させた。 - ハイパーパラメータの最適化を行った。