テキストメディア特論「会社名」の抽出

October 01, 2023

Research

120

テキストメディア特論「会社名」の抽出

Lamron

October 01, 2023

Tweet

More Decks by Lamron

See All by Lamron

テキストメディア特論類似した「名前」の同一性の判定

0

83

Blueskyでは何が話し合われているか。「情報技術は民主主義を生み、今は殺そうとしている」

0

7.4k

要約: Formal Approaches in Categorization: Chapter.5 Semantics without categorization

0

3.5k

Blueskyの「今」がわかる！Bot

0

1.9k

Other Decks in Research

See All in Research

財務諸表監査のための逐次検定

0

230

教師あり学習と強化学習で作る最強の数学特化LLM

2

820

AIグラフィックデザインの進化：断片から統合（One Piece）へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design

0

590

Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper

6

1.3k

Akamaiのキャッシュ効率を支えるAdaptSizeについての論文を読んでみた

1

380

AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data

3

680

Agentic AI Era におけるサプライチェーン最適化

0

110

SREのためのテレメトリー技術の探究 / Telemetry for SRE

13

2.7k

ACL読み会2025: Can Language Models Reason about Individualistic Human Values and Preferences?

0

110

Open Gateway 5GC利用への期待と不安

2

170

まずはここから：Overleaf共同執筆・CopilotでAIコーディング入門・Codespacesで独立環境

3

1k

When Learned Data Structures Meet Computer Vision

1

2k

Featured

See All Featured

Designing for Performance

610

70k

Java REST API Framework Comparison - PWX 2021

34

9.1k

Lightning talk: Run Django tests with GitHub Actions

0

97

Mobile First: as difficult as doing things right

225

10k

Intergalactic Javascript Robots from Outer Space

273

27k

Designing for humans not robots

254

26k

The Success of Rails: Ensuring Growth for the Next 100 Years

47

7.9k

The MySQL Ecosystem @ GitHub 2015

251

13k

Introduction to Domain-Driven Design and Collaborative software design

1

540

Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO

PRO

0

31

Marketing Yourself as an Engineer | Alaka | Gurzu

0

110

RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub

141

34k

Transcript

「会社名」の抽出 @lamrongol
 「～社」などの表現から会社名を判断する方法には限界がある  切れ目の判断が難しい（「・」は切れ目か否か、など）  「オラクル」のように「～社」の形になってないものは社名と判断できない  「東電」などの略称もある
 あらかじめどのような会社名があるか登録しておけばよい
Wikipedia の利用  Wikipediaの特徴  各項目には多くの場合「千葉県の会社」などカテゴリが付与されている  一定の規則に基づいた文書が大量にある 
人手による更新・訂正が行われるので正確性がある程度保証されている  大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)
略称の取得  略称と正式名称の関連も取得できる  例）「日立」というリンクから「日立製作所」につながっている場合  「日立」＝「日立製作所」と関連付けられる
Wikipedia以外からの取得  Web上にはWikipedia以外の文書も大量にある  しかし、それらはWikipediaのように「企業」であることが明記されてるわけではない  だが、量は圧倒的に多いのでなんとか活用したい  周りの文章から「会社名」であることを判断できな
いか？  「〇〇は東証一部に上場した～」  「〇〇は1997年に創業した～」
構造化されてない文章からの会社名の取得  まず、Wikipediaなど構造化されているデータを「訓練データ」として用いる  前後の単語から、会社名を判断する確率モデルを作る  構造化されてないデータ（ブログの文章等）に対してこれを適用し、会社名を取り出す
P(会社名|創業）= N(会社名∧創業） N(創業）
関連研究の応用  Support Vector Machineを用いた日本語固有表現抽出[山田 et al]  前後の単語の素性（単語自体だけでなく、品詞の
種類なども含む）ベクトルの集合に対してSVMを行い、学習させる