商標の文字認識結果をツイートする「商標速報 OCR bot」を公開

最新の公開商標公報に掲載されている全商標登録出願の概要をツイートする「商標速報 bot」。そのツイートされた画像の OCR 結果をツイートする「商標速報 OCR bot」を公開しました。

背景

昨年、スパイシーソフト株式会社が、株式会社 Mogura の運営するメディア名「MoguraVR」を商標取得し、「不正の目的に基づいた剽窃的行為」として特許庁に無効審判請求する出来事などがありました。

法人だけでなく個人や任意団体でも、不正目的と思われる商標取得には、日々注意する必要がありそうです。

定期的に出願されている商標を確認すればいいわけですが、エゴサーチのついでに見つかるとラッキーという目的で、商標情報をツイートする bot を作りました。

商標速報 bot と OCR(文字認識)

「商標速報 bot」がツイートする商標はすべて画像で、商標に使われている文字を検索できません。これは、特許庁が提供する「公開公報」が画像のためです(※)。

特許情報プラットフォーム(J-PlatPat) に反映されると、テキストデータが含まれています。標準文字制度によってテキストデータのみの商標出願も、画像に置き換えられるので、情報が失われてすごい利便性が下がっているような。

MoguraVR の件も画像でツイートされていました。商標速報 bot をフォローしているだけでは、気付くのは難しいです。

「商標速報 bot 補完計画」というクラウドファンディングで「OCR による画像内テキストの検索にも対応」した Web サイトを予定しているようですが、まだ実現していません。

そこで、文字認識した結果をツイートする bot を作りました。商標速報 bot 作者の kwixilvr 氏にも許可を得ています。作ったのは昨年11月ですが、公開と運用が遅くなってしまいました。

商標速報 OCR bot

実際のツイートの様子です。対象の画像はこちら

🇬 → Google Cloud Vision API の OCR 結果
📝 → 修正した OCR 結果(上のはうまく修正できた例)

内容は無保証です。また OCR API やサーバーの費用もかかるので、あまり有用性がなければ、やめるかもしれません。

API

OCR は Google Cloud Vision API を利用。いくつか結果を見たところ、「標準文字」の商標は、等幅フォントのため、英単語に空白が挿入された結果になってしまうのと、必ず「l(エル)」を「1(いち)」に間違えてしまうので、簡易な修正結果の両方をツイートするようにしています。

現在、言語のヒントとして日本語・英語を指定して運用しています(初期の方はヒントなしでの認識結果です)。

ちなみに、Microsoft Cognitive Services の Computer Vision API は、.NET のライブラリ Azure SDK for .NET(まだ preview ではあるけれど)がバグっていたので使っていません。ちょうど OCR 関連のデータ定義が間違ってて使えず。Issue は昨年送りましたが……。

オープンソースの OCR エンジン Tesseract-OCR も言語を指定すれば、精度のいい結果を出すように思います。

ツイート

元の商標速報 bot のツイート URL を含めた方が有用そうですが、URL を含めたツイートを繰り返すと、すぐにツイート検索の結果に表示されなくなるため、商願番号のみ記載しています。

ちなみに、検索結果に出ない状態になったら、検索 | ヘルプセンター から問い合わせると、別アカウントですが、結構 復活するのを経験しています。

GitHub