OCR及び新規圧縮アルゴリズムはどうすっべなぁ・・・

本日は所感。

自動トリミングソフトにアスペクトやらコントラストやらの機能を付けていますが、表題のものを作る副産物です。

まず正確に文字を解析するためには大本の画像データに汚れがあったり斜めっていたりすると正確に読み取ることができません。
その為にまずはノイズやら何やらの処理をしてやらねばならないため、いまだそのあたりでうろうろしているのが実情。

また、新規圧縮についても図面データを取り扱うことが多い為、当面はDXF形式で出力することが目標です。*1

また、可逆圧縮するかどうかなんですよねぇ、、、

やり方としてもファイル一つ当たりを圧縮するという考え方と複数ファイルを格納する考え方もあり、複数の類似するファイルを含む書庫を作ってデータサイズを稼ぐ(動画データの考え方)かどうか、、、とか。

悩みというより欲に近いかも。

*1:目的はデータの高圧縮