「VisiP☆Tex」フリー版 利用マニュアル

特許データテキストマイニングするWebアプリVisiP☆Texフリー版について、利用方法や注意点などを解説します。

  • テキストマイニングとは、文字のデータ(特許の場合は「発明の名称」や「要約」)を、単語に分割(名詞、動詞、形容詞等)して、有益な情報を抽出することです。
  • 鉱山から貴金属やダイヤモンドを採掘することを「マイニング」(Mining)と言いますが、それにならって、「テキスト」データから有益な情報を「マイニング」するという意味で、「テキストマイニング」と呼びます。
  • ここでは、単語に分割するだけの行為も含めて「テキストマイニング」と呼びます。
  • 2025.7.28 「VisiP☆Tex」フリー版をリリースしました。

操作画面および操作手順

VisiP☆Texフリー版操作画面操作手順は以下の通りです。

特許データを登録

特許データを登録」の欄に、特許データのファイルをドロップまたはクリックして登録します。

  • 特許検索サイト(J-PlatPatGoogle PatentsPATENT SCOPEThe Lensに対応、ただし日本語のみ)からダウンロード(詳細はこちら)したデータに対応しています。
  • アップロードできるデータ件数は、1500件が上限です。
  • ダウンロードしたデータは、原則、手を加えずにそのまま登録してください。
  • もしデータに手を加える場合、保存するファイル形式は、CSVファイル(拡張子.csvUTF-8形式)またはExcelファイル(拡張子.xlsまたは.xlsx)としてください。
  • 例えばJ-PlatPatの場合、「発明の名称」または「要約」は必須です。Google Patentsなども、それぞれに対応するフィールドがあるので、それらは変更しないでください。

辞書を登録

辞書を登録」の欄に、抽出語除外語同義語に関するファイルをドロップまたはクリックして登録します。これらの辞書に関しては後述します。

テキストマイニングを開始

テキストマイニングを開始」ボタンをクリックして、データ解析を開始します。(結果については後述します。)

  • 正常に稼働した場合、操作画面の上部に、下図のメッセージが順次表示されます。
  • エラーが発生した場合のメッセージについては後述します。

サンプルデータを表示

サンプルデータを表示」ボタンをクリックすると、テキストマイニングした結果のサンプルが表示されます。

辞書について

テキストマイニングの結果については、抽出語同義語除外語の各辞書を使って、調整をすることができます。

「抽出語」辞書

テキストマイニングでは、単語の分割や選択が、意図した通りに行われるとは限りません。想定した単語が表示されないこともあります。その対策として「抽出語辞書を利用する手があります。

表示したい単語を、テキストファイル(拡張子:txt)に保存して、「抽出語」の欄にアップロードしておけば、強制的に抽出して表示されす。

ただし、使用しているアプリケーション(Sudachi)の性質上、抽出されない場合もあるので、その点はご留意ください。

「除外語」辞書

上記とは逆に、除外したい単語がある場合、「除外語」辞書を利用して表示しないようにすることができます。

テキストファイル(拡張子:txt)に保存して、「除外語」の欄にアップロードしておけば、そのテキストファイルに列挙した単語群は、強制的に除外されます。

なお、以下の単語群デフォルトで除外されます。また、1文字だけの単語も、基本的には除外されます(除外されない場合もあります)。

“こと”,”もの”,”よう”,”ため”,”それ”,”これ”,”どこ”,”あれ”,”あと”,”とも”,”うち”,”および”,”お呼び”,”及び”,”ならびに”,”並びに”,”または”,”又は”,”要約”,”課題”,”解決”,”手段”,”解決手段”,”特徴”,”前方”,”後方”,”上下”,”左右”,”前記”,”上記”,”後述”,”上方”,”下方”,”前部”,”後部”,”上部”,”下部”,”作業”,”装置”,”工程”,”行程”,”構成”,”配置”,”部分”,”全体”,”位置”,”制御”,”材料”,”容易”,”従来”,”前側”,”後側”,”側方”,”形成”,”状態”,”状況”,”戴置”,”中央”,”場合”,”選択”,”前後”,”提供”,”本体”,”右”,”左”,”上”,”下”,”間”,”方法”,”製法”,”製造方法”,”生産方法”,”所定”,”*”,”可能”,”可能性”,”図”,”選択図”,”部”,”回”,”側”,”機”,”前”,”後”,”複数”,”主”,”台”

「同義語」辞書

同じような意味の単語は、「同義語辞書を利用して統合することができます。例えば、「地図」「案内図」「マップ」などを、全て「マップ」として表示させることができます。

CSVファイル(拡張子:csv、文字コード:utf-8)またはExcelファイル(拡張子:xls、xlsx)を準備し、下図のように、A列に統合前の単語、B列に統合後の単語を記載して保存し、「同義語」の欄にアップロードしておけば、A列の単語がB列の単語に置換して表示されます。

テキストマイニングの結果について

データ解析が完了すると、操作画面の下に、「ワードクラウド」と「ダウンロード」のタブが表示されます。

「ワードクラウド」について

ワードクラウド」(Word Cloud)とは、テキストマイニングによって切り出された単語群について、出現頻度が多い単語ほど大きく、少ない単語ほど小さく表示し、適当に配置・配色してビジュアル化したものです。

本アプリでは、文字データである「発明の名称」および「要約」のワードクラウドを生成します。画像を右クリックして別窓への表示やダウンロードも可能です。

①「発明の名称」のワードクラウド

②「要約」のワードクラウド

「ダウンロード」について

テキストマイニングの結果は、ダウンロードできます。ダウンロードできるデータは、以下の2種類です。

特許データ

「発明の名称」および「要約」から切り出された単語群のリストは、それぞれ「発明の名称(キーワード)」および「要約(キーワード)」というフィールド名で、元の特許データに追記され、CSVファイルとしてダウンロードできます。

ワードリスト

「発明の名称」および「要約」から切り出された単語群を、出現頻度が多い順にソートして、「発明の名称」「要約」の順に並べたリストを、CSVファイルとしてダウンロードできます。

エラー表示について

よく発生するエラーは、「ファイルが無効です。」のエラーです。これは、ファイルを登録してから時間が経過したなどの理由で、システムの内部処理によりファイルが削除されてしまう、などが理由です。この場合、ブラウザの画面をリロードしてやり直してください。

次に発生しやすいのは、軸データ項目の選択ミスや、ファイルのデータサイズが大き過ぎる場合です。

  • 「出願人×出願人」など、同じ選択肢の組合せは、今のところ受け付けていません。
  • 特許検索サイトによっては、存在しない軸データ項目があり、その場合はエラーとなります。(例えば、Google Patentsでは特許分類がダウンロード不可)
  • サーバの負荷に配慮して、データ件数や文字数に上限を設けています。ただし、文字数は今のところ、アラートを出すだけでエラーにはしていません。

その他、ダウンロードしたデータに手を加えた場合、以下のようなエラーが出ます。

  • 上述の通り、登録できるファイル形式は限定しています。
  • CSVファイルには文字コードに種類があり、UTF-8形式のみ受け付けています。もしエラーが出る場合、メモ帳などで開いてエンコード形式に「UTF-8」を選び、保存し直せば使用可能となります。
  • その他、下図に列挙した以外、さまざまなエラーが出る可能性があります。極力、各特許検索サイトからダウンロードしたデータには手を加えないでください。

ご了承いただきたい事項

ご利用にあたっては、以下の点をご了承ください。

  • ご利用は無料です。ただし、今後の稼働状況や機能拡張などにより、部分的に有料化させていただく可能性があります。
  • 本アプリでは、データ収集や保管を一切しません。データ破損の責任は負いかねますので、元データは必ずお手元に保管ください。
  • 本アプリで生成されたマップは、自由にご利用ください。ただし、ご利用に当たっては自己責任でお願い致します。
  • バグや不具合が残っている場合があり、ご利用に当たってはご承知おきください。ご報告いただければ、できるだけ早期に対応致します。
  • こんなマップが欲しい、この制限は解除して欲しい、などのご要望は、可能な範囲で承ります。ただし、必ずお応えするとの保証は致しかねます。
  • 上記のご要望に対応した結果を含めて、本アプリに関する著作権を含む知的財産権は当方に帰属します。(ただし上述の通り、生成されたマップに対する知的財産権は主張しません。)
  • 本アプリは、できるだけ永きに渡る運用継続を心掛ける所存ですが、永続的な稼働を保証するものではありません。

できるだけ多くのみなさまに、広くご利用いただければ、と願っております。ご意見やご要望などは、「お問い合わせ」からお寄せください!