たっきーのガジェットと投資・お金の話

ガジェットとお金に関する話をどしどし発信するブログです。ガジェットについては、さまざまな変わった端末を入手してレビューを投稿しています。お金については、特にポイントを使った投資や実績についてを発信していきます。

カテゴリ: 知的財産

無料のサイトを利用して特許公報を効率的に、かつ大量に収集する手法は、目的(「PDFを一括で欲しい」のか「データとして解析したい」のか)によって異なります。

2026年現在、無料で利用できる主要な手法を、効率性の高い順にまとめました。


1. 日本特許庁(JPO)「知財情報一括ダウンロード」

日本国内の特許公報を数千〜数万件単位で取得したい場合に最も強力な手段です。

  • 特徴: 特許庁が公式に提供している、バルクデータ(一括データ)の配布サイトです。

  • 入手できるもの: 特許・実用新案の公開・公報(PDFおよびXML形式)。

  • 効率化のポイント: * 「発行日」単位でまとめてダウンロード可能です。

    • 最新の公報だけでなく、過去の蓄積データも期間を指定して申請できます。

  • 利用方法: 特許情報一括ダウンロードサイトから、利用者登録(無料)を行った上で利用します。

2. Google Patents (Public Datasets)

世界中の特許データを「解析用データ」として大量取得したい場合に最適です。

  • 特徴: GoogleがBigQueryなどのクラウドプラットフォーム上で、世界100カ国以上の特許データを公開しています。

  • 効率化のポイント: * Google BigQuery: SQLを使って、特定の条件(特定の企業、特定の技術分野など)に合致する数百万件のデータを数秒で抽出できます。

  • 注意点: PDFそのものの大量取得よりは、テキストや書誌事項の解析に向いています。

3. 特許情報取得API(J-PlatPat系)

プログラム(Python等)を組んで、自動で公報を収集する手法です。

  • 特徴: 日本の「特許情報プラットフォーム(J-PlatPat)」の裏側にあるデータを、API経由で取得できます。

  • 効率化のポイント: * 自動化: 特定のキーワードでヒットした公報の番号リストを取得し、そのままPDFのURLを生成して保存するスクリプトを組めます。

    • 無料枠: 特許情報APIは、一定の制限内であれば無料で利用可能です。

4. 国際機関・海外官庁のバルクサービス

海外の公報を大量に集める場合は、各官庁の直販・直配サイトが確実です。

サイト名対象地域特徴
USPTO Bulk Data米国米国特許の全データを週単位で一括公開。
EPO Bulk Data欧州欧州特許(EP)の書誌・全文データをXML/PDFで配布。
WIPO PATENTSCOPE国際(PCT)国際出願のデータを一括またはリスト形式で取得可能。

効率化のためのテクニック

  1. 番号リストを先に作る:

    J-PlatPatやGoogle Patentsの検索結果から、まずは「特許番号(公開番号)」のリストをCSVで書き出します。

  2. 一括ダウンロードソフトの活用:

    番号リストさえあれば、オープンソースやフリーの「連続ダウンロードツール(おろし金など)」や、自作のスクリプトで、1件ずつ表示・保存する手間を省けます。

  3. PDFではなくテキスト(XML/JSON)を狙う:

    解析が目的であれば、PDFよりもファイルサイズが小さく検索性に優れたXML形式のバルクデータを選ぶのが、通信量と処理速度の両面で効率的です。

このエントリーをはてなブックマークに追加

日本の特許庁におけるAI技術の活用:調査業務の高度化と効率化

日本の特許庁では、出願件数の増加や調査対象の多様化、そして審査ノウハウの円滑な継承といった課題に対応し、業務の高度化効率化を図るため、2016年度からAI技術の活用に向けた検討に着手し、具体的な取り組みを推進しています。特に、特許審査業務における「調査」の分野でAIが大きな役割を果たし始めています。

1. 先行技術文献調査へのAIの適用

特許審査において最も重要な工程の一つが、出願された発明が既に存在するか(新規性)や、容易に思いつけるものか(進歩性)を判断するための先行技術文献調査です。この業務の効率化・高度化のためにAIが活用されています。

  • 特許分類付与の支援:

    • AIは、出願された特許文献(明細書、請求項など)のテキストを分析し、適切な特許分類(技術分野を示すコード)を推定・提示します。これにより、審査官による分類付与業務の負担が軽減され、分類の漏れや誤りが減る効果が期待されます。外国語の文献に対しても、機械翻訳されたテキストを用いて同様の支援が行われています。

  • 検索キーワードの推定支援:

    • 審査対象の特許請求の範囲や明細書を基に、先行技術調査で有効な検索式の作成に役立つキーワードをAIが推定します。これにより、審査官が検索式の漏れを防ぎ、網羅性の高い調査を支援します。

  • 特許文献のランキング表示(類似度スコアリング):

    • AIは、調査対象の特許文献が持つ情報(書誌情報、分類、請求項、引用回数など)を用いて、審査対象案件との類似度に関するスコアを付与します。これにより、類似度の高い文献から順にランキング形式で表示することが可能となり、審査官は膨大な文献の中から、関連性の高いものを迅速に特定できるようになります。

2. 商標・意匠分野におけるAIの活用

AIの画像認識技術は、図形や画像が中心となる商標意匠の調査においても有効活用されています。

  • 先行図形商標の調査:

    • 図形商標の出願に対し、AIが類似する先行図形商標を画像認識技術を用いて検索・検出するシステムの導入が進められています。これにより、図形的な類似性に基づく審査の品質向上が期待されます。

  • 先行意匠調査(平面的意匠の調査):

    • 画像や模様が付された意匠など、平面的意匠を対象に、深層学習(ディープラーニング)を含む複数の手法を用いて、類似度の高い先行意匠をランキング表示させることで、調査業務の効率化が図られています。表現形態の違い(線図、CG、写真など)を超えて、形態の共通性を把握することが目指されています。

3. 今後の展望:生成AIの活用と保護の在り方

近年急速に発展している生成AIについても、特許庁はその活用と影響について検討を進めています。

  • 行政事務・審査業務への生成AIの適用検討:

    • 生成AIの能力(テキスト生成、要約、マルチモーダル情報処理など)を、特許審査管理業務や先行技術調査、指定商品・役務調査などの各種行政事務に適用し、業務改善を図るための実証実験が計画・実施されています。

  • AIを利活用した創作の保護の在り方に関する調査研究:

    • AIが創作過程で拡大利用されることにより生じた発明を含む特許出願の増加を見据え、進歩性記載要件発明者の認定など、特許法上の保護の在り方を巡る国内外の動向調査や専門家による議論が行われています。現時点では直ちに変更すべき特段の事情は見出されていませんが、技術の進展を注視し、適切な保護の在り方を検討する姿勢が示されています。

まとめ

日本の特許庁におけるAIの活用は、特許・商標・意匠の各分野における先行調査分類付与などの主要な業務を、AIが支援・代行することで、審査官の負担を軽減し、審査品質を向上させることを主眼として進められています。AIは審査官の代替ではなく、審査の質とスピードを両立させるための強力な支援ツールとして位置づけられています。今後も生成AIなどの最新技術を取り入れ、知財行政のデジタルトランスフォーメーション(DX)を推進していく計画です。

このエントリーをはてなブックマークに追加

USPTOにおける調査業務へのAI活用

米国特許商標庁(USPTO)は、特許審査の質と効率を大幅に向上させるため、調査業務に人工知能(AI)技術の統合を積極的に進めています。AIは、特に先行技術調査の分野で審査官と出願人の双方を支援するツールとして活用が拡大しています。

1. 審査官向けのAI検索ツールの導入

USPTOは、特許審査官が先行技術調査を行うための内部検索ツールであるPatents End-to-End (PE2E) Searchに、複数のAIベースの機能を組み込んでいます。

  • Similarity Search(類似性検索):

    • これは、AIベースの機能で、審査官が特許出願の明細書、請求項、要約などの情報を提供すると、訓練されたAIモデルが入力情報と類似性の高い国内外の特許文献リストを瞬時に出力します。

    • 従来のキーワード検索や分類コード検索では見逃されがちな、意味的(semantic)に類似した先行技術を見つけ出す能力を高めます。

    • この機能は、審査官の他の検索ツールを補完するものであり、置き換えるものではありません。

    • AI検索機能の使用履歴は、審査過程の透明性を保つため、包袋(Search Note)に記録されます。

  • DesignVision(意匠向けAI画像検索ツール):

    • 意匠特許審査官向けに導入されたAI搭載の画像検索ツールです。

    • 画像を入力クエリとして使用し、WIPOやEUIPOを含む80以上の国・地域の意匠、商標、産業デザインのデータベースから、画像類似性に基づいて検索結果を返します。

2. 出願人向けパイロットプログラム:ASAP!

USPTOは、AIによる先行技術調査の有効性を評価し、出願プロセスを改善するためのパイロットプログラムを実施しています。

  • Artificial Intelligence Search Automated Pilot (ASAP!) Program(AI検索自動化パイロットプログラム):

    • 審査官による実体審査のに、USPTOの内部AIツールによる自動化された先行技術調査を試行するプログラムです。

    • AIは、協調特許分類(CPC)と出願の明細書、請求項、要約から文脈情報を抽出し、関連性の高いと判断された最大10件の先行技術文献を特定します。

    • この結果は、**Automated Search Results Notice (ASRN)**として出願人に提供されます。

    • 目的と利点:

      • 出願人は、審査開始前に潜在的な先行技術の課題を早期に把握し、請求項の補正などの戦略的な調整を行う機会を得ることができます。

      • これにより、審査の回数を減らし、全体的なコストと期間の効率化(迅速な特許付与)に貢献することが期待されています。

3. AI活用の影響と今後の展望

AIは、USPTOの調査業務を強化し、自動化を促進することで、人間の審査官の判断を支援することを目的としています。

  • 品質と効率の向上: AIは、大量の文献を迅速かつ包括的に分析し、従来の検索方法では発見が困難であった関連文献(非特許文献を含む)を見つけ出すことで、審査の質と効率の向上に貢献します。

  • 透明性の確保: AIツールを使用した場合、その情報が包袋に記録されることで、審査過程の透明性が維持されます。

  • 留意点: AIツールは強力ですが、人間によるレビューと検証が不可欠です。AIが出力した検索結果は、審査官の経験と判断によって最終的に評価されます。また、USPTOは、実務家に対し、AIツール使用に伴う機密保持や**ハルシネーション(誤情報生成)**などのリスクを認識し、既存の規則を遵守するようガイダンスを出しています。

このように、USPTOはAIを「制度上の味方」として位置づけ、特許審査のインフラにAIを組み込むことで、イノベーションを支援する体制を強化しています。Using AI to Enable Examiners at USPTO, America's Innovation Agency

この動画では、USPTOの審査官を支援するためのAI活用について説明されています。

このエントリーをはてなブックマークに追加

Google Patents Phrase Similarity Datasetの概要

Google Patents Phrase Similarity Datasetは、特許文献に含まれる専門用語や技術用語に焦点を当てた、人間が評価したコンテキスト付きのフレーズ間の一致度(類似度)を計測するためのデータセットです。自然言語処理(NLP)モデル、特にセマンティックマッチングやセマンティックテキスト類似性(STS)のタスクにおいて、より高度な性能を持つモデルを開発・評価するためにGoogleが作成・公開しました。

このデータセットは、米国特許フレーズ間マッチングコンペティションでもベンチマークデータセットとして使用され、特許という専門的で複雑なドメインにおけるフレーズの類似性評価に新たな標準を確立しました。

データの構成要素

データセットの各エントリは、以下の主要な要素で構成されています。

  1. アンカー(Anchor): 比較対象となる基準のフレーズ。

  2. ターゲット(Target): アンカーと比較されるフレーズ。

  3. コンテキスト(Context): 協調特許分類(Cooperative Patent Classification; CPC)クラス。フレーズの曖昧性を解消するための文脈情報として機能します。

  4. 評価クラス(Rating Class): フレーズ間の関係性を詳細に示す粒度の高い分類(例:同義語、反意語、上位語、下位語、全体語、部分語、ドメイン関連、無関係)。

  5. 類似度スコア(Similarity Score): 0.00から1.00の範囲で、フレーズ間の類似度を人間が評価した連続値。

データセット全体では約5万件の評価済みフレーズペアが含まれ、973個のユニークなアンカーが使用されています。データはトレーニング(75%)、バリデーション(5%)、テスト(20%)セットに分割されており、同じアンカーを持つエントリは全て同じセットにまとめられています。


💡 データセットの主な特徴と目的

このデータセットが従来の類似性ベンチマークと一線を画すのは、特許ドメインの特殊な課題を解決するために意図的に設計されている点です。主な設計目標は以下の3点です。

1. フレーズの曖昧性解消(Phrase Disambiguation)

特許文書では、「マウス」が動物を指すこともあれば、コンピューターの入力デバイスを指すこともあります。従来のモデルは文脈がないとこれを区別できませんでした。本データセットでは、各フレーズペアにCPCクラス(例:コンピュータ技術、化学、機械工学など)を付与することで、モデルがフレーズの意味を文脈に依存して解釈する能力を試します。

2. 対立的なキーワードマッチ(Adversarial Keyword Match)

単語が一致していても意味が全く異なるフレーズペア(例:「container section」と「kitchen container」、「offset table」と「table fan」)が多く含まれています。従来のバッグオブワーズ(Bag-of-Words)のような単純なモデルでは、共通する単語に基づいて高い類似度を出してしまいがちです。このデータセットは、そのような誤認識を防ぎ、真のセマンティックな理解を促すように設計されています。

3. ハードネガティブ(Hard Negatives)

既存の最先端言語モデル(例:BERTモデル)が非常に類似していると判断しやすいが、実際には人間が低い類似度(または無関係)と評価したフレーズペアを意図的に含んでいます。これは、既存のモデルの弱点を克服し、より人間的な判断に近い次世代のモデルをトレーニングすることを目的としています。


🎯 粒度の高い評価クラス

このデータセットのもう一つの革新的な特徴は、単純な類似度スコアだけでなく、WordNetに類似した粒度の高い評価クラスが含まれていることです。

評価クラス意味
Synonym同義語(例:「gasoline blend」と「petrol blend」)非常に高い類似度(例:0.75-1.00)
Antonym反意語中程度の類似度
Hypernym上位語(例:「gasoline blend」と「fuel blend」)中程度の類似度(例:0.50)
Hyponym下位語(例:「faucet assembly」と「water tap」)中程度の類似度(例:0.50)
Holonym全体語(例:「faucet assembly」と「water supply」)低〜中程度の類似度(例:0.25)
Meronym部分語低〜中程度の類似度
Domain Relatedドメイン関連だが直接的な関係ではない(例:「acid absorption」と「chemically soaked」)低い類似度(例:0.25)
Not Related無関係(例:「gasoline blend」と「fruit blend」)非常に低い類似度(例:0.00-0.10)

この詳細な分類は、モデルが単なる類似性だけでなく、フレーズ間の意味的な関係性を理解する能力を評価し、向上させるのに役立ちます。


📝 応用分野と貢献

Google Patents Phrase Similarity Datasetは、特に以下の分野で貢献しています。

  • 特許検索と分類: フレーズ間の正確な類似性評価は、特許文書の効率的な検索、既存技術との比較、適切な分類に不可欠です。

  • 専門用語のセマンティック理解: 科学技術文書や法務文書など、特定のドメインに特化した専門用語のセマンティックマッチング能力を向上させます。

  • 次世代NLPモデルの開発: 曖昧性解消、対立的キーワード、ハードネガティブといった困難な課題に対応できる、よりロバスト(堅牢)で高性能なNLPモデルのトレーニングと評価のためのベンチマークを提供します。

このデータセットは、複雑な特許ドメインの言語的課題に取り組むことで、学術研究者や企業が、より高度で実用的なセマンティック・テキスト・エンベディングを開発するための貴重なリソースとなっています。

このエントリーをはてなブックマークに追加

 ASEAN IP REGISTER(ASEAN知的財産登録簿)の概要

ASEAN IP REGISTERは、世界知的所有権機関(WIPO)が管理・運営する、ASEAN加盟10か国の知的財産(IP)データを一元的に集約し、横断的に検索可能にしたオンラインシステムです。2023年8月に正式に開始されました。

📜 設立の背景と目的

ASEAN(東南アジア諸国連合)地域は、急速な経済成長を遂げており、域内での貿易や投資が活発化しています。これに伴い、知的財産の保護と活用に対するニーズが高まっていました。しかし、加盟国ごとに異なる特許庁が独自のデータベースを運用しているため、企業や研究者が広範なIP情報を効率的に調査・把握することが困難でした。

ASEAN IP REGISTERは、この課題を解決し、域内および域外のユーザーがワンストップでASEAN全体のIP情報を取得できるようにするために開発されました。主な目的は以下の通りです。

  1. 情報の透明性の向上: 各国に分散していたIP情報を一箇所に集約することで、情報のアクセシビリティを高めます。

  2. ビジネスと投資の促進: 企業がASEAN市場での事業戦略を立案したり、投資判断を行う際に、必要なIP関連のデューデリジェンスを容易にします。

  3. 効率的な検索と調査: 標準化されたインターフェース(英語)を通じて、複数の国の特許、商標、意匠を一括で検索できるようにします。

  4. IPエコシステムの強化: 知的財産権の適切な保護と活用を促進し、ASEAN地域のイノベーションを支援します。

🔍 収録される知的財産の種類とデータ

ASEAN IP REGISTERは、主に以下の3種類の産業財産権の情報を収録しています。

  1. 特許(Patents)

  2. 実用新案(Utility Models)

  3. 意匠(Designs)

  4. 商標(Trademarks)

データの出所は、基本的にASEAN各国特許庁の公的なデータベースです。以前は「ASEAN PATENTSCOPE」という名称で特許情報が横断検索されていましたが、IP REGISTERへの移行により、商標や意匠情報も包括的にカバーするようになり、より総合的なデータベースとなりました。

<収録される主なデータ項目(例)>

検索結果として表示される詳細情報には、以下のような項目が含まれます。

  • 出願番号 (Filing Number) および 登録番号 (Registration Number)

  • 出願日 (Filing Date) および 登録日 (Registration Date)

  • 権利者/出願人 (Applicant/Owner)

  • 発明の名称/マーク/ロゴ (Title/Mark/LOGO)

  • 公報のステータス (Status): 公開済み (Published)、審査済み (Examined)、登録済み (Registered) など

  • 代表者 (Representative)

  • 分類情報(例:特許のIPC分類、商標のニース分類)

特に商標については、ロゴやマークの画像データも確認することができ、商標調査において重要な役割を果たします。

🌐 利用の利便性

この登録簿の大きな特徴は、その利便性の高さにあります。

  • 単一のインターフェース: 各国のデータベースは言語や構造が異なることが多いですが、IP REGISTERは英語の統一インターフェースを提供しており、ユーザーは言語の壁を越えて情報を検索できます。

  • 横断検索機能: 意匠、特許、商標といったIPの種類ごとに、関心のあるASEAN諸国(ミャンマーを除く9か国)を対象に一括で検索を実行できます。

💡 企業にとっての重要性

ASEAN IP REGISTERは、ASEAN市場に進出を検討している企業や、既に事業を展開している企業にとって不可欠なツールです。

  1. クリアランス調査: 新しい製品やブランドを導入する前に、既存の特許権や商標権を侵害していないかを迅速に確認できます。

  2. 競合分析: 競合他社がASEANのどの国で、どのような技術やブランドの保護を図っているかを把握し、R&D戦略やマーケティング戦略に役立てることができます。

  3. 知財ポートフォリオの管理: 企業自身のASEAN域内でのIP権利状況を一元的に把握し、管理コストを削減できます。

  4. 模倣品対策: 登録された商標や意匠を特定することで、模倣品の製造・流通に対する対策を講じる際の基礎情報となります。

🚧 留意点

非常に有用なツールである一方で、利用に際していくつか留意すべき点もあります。

  • 情報の鮮度と完全性: データは各国特許庁のデータベースから取り込まれていますが、リアルタイム性や収録されているデータの完全性・網羅性は、各国特許庁のシステム更新状況やデータ提供体制に依存します。一部の国や古いデータについては、収録がイレギュラーになる場合があることが指摘されています。

  • ミャンマーの状況: 現時点(2023年/2024年時点の情報)では、ミャンマーは知的財産法の整備が途上にあり、IP REGISTERにすべての知財情報が収録されているわけではありません。

結び

ASEAN IP REGISTERは、ASEAN域内における知的財産情報のアクセスの質を劇的に向上させ、同地域の経済統合とイノベーション促進に大きく貢献するインフラストラクチャです。今後のデータ拡充と機能強化により、アジア太平洋地域におけるビジネスの知的財産戦略において、さらに重要な役割を果たすことが期待されます。

このエントリーをはてなブックマークに追加

↑このページのトップヘ