Kotaro Kinoshita / MLism

626 posts

Kotaro Kinoshita / MLism

@KINOCOAI

MLism Inc. / YomiTokuの商用利用に関してはmlism.comにお問い合わせください/機械学習、画像処理、文書画像解析

Joined October 2024

1,006 Following

1,488 Followers

Kotaro Kinoshita / MLism’s posts

Pinned

Kotaro Kinoshita / MLism

@KINOCOAI

Nov 10

日本語特化AI-OCR「YomiToku-Pro」をAWS Marketplaceで商用提供開始しました。データはお客様のAWS環境内で専用APIにより安全に処理され、社内文書や機密データも高速・高精度に解析可能です。併せてOSS「YomiToku-Client」も公開。CLI・バッチ処理・可視化機能でAPIの性能を最大限に引き出します。

First image shows a spiral-bound notebook page with handwritten Japanese text and annotations, including numbered lists, circled characters, and sticky notes on a wooden desk surface. Second image displays a table with columns for input text samples, output results, and performance scores like accuracy percentages, bordered in blue and yellow, alongside a paragraph of explanatory Japanese text below detailing OCR processing capabilities.

71K

Kotaro Kinoshita / MLism

@KINOCOAI

Nov 26, 2024

日本語の文書画像解析、OCRに対応したPythonパッケージ「YomiToku」を公開しました。独自に学習したAIが搭載されており、ローカルサーバーでPDFや文書画像の解析、OCRや表の構造解析、レイアウト解析が可能です。結果はHTMLやCSV, JSON, Markdownといった形式でエクスポート可能です。

260K

Kotaro Kinoshita / MLism

@KINOCOAI

Nov 26, 2024

日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました｜Kotaro.Kinoshita

@KINOCOAI

#note

日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました｜Kotaro.Kinoshita

From note.com

76K

Kotaro Kinoshita / MLism

@KINOCOAI

Oct 30

OCRで仕事してる自分でもそう思うけど、紙って情報インタフェース、情報媒体として優れすぎてるんですよね

Quote

いぐぞー@書籍執筆中

旅するプログラマー

@igz0

Oct 29

DXや業務効率化の案件でお偉いさんが話している際に「OCR」って言葉が出てきた瞬間に「それって帳票を電子化したらそもそも必要なくなりますよね？」って言うだけで年収は1億ドル超えるし今は広い芝生付きの家でクソデカい猫を撫でているだけで暮らせているわ。

129K

Kotaro Kinoshita / MLism

@KINOCOAI

Nov 5

GPU不要でOCRとレイアウト解析を実現する軽量日本語AI-OCRモデルをリリースしました。CPUで添付の画像を約3秒で読み取りを実現。縦書き、手書き文字、旧字体、異体字（﨑・濵など）の読み取りにも対応しています。 YomiTokuの最新バージョンで利用可能です。 github.com/kotaro-kinoshi

99K

Kotaro Kinoshita / MLism

@KINOCOAI

Oct 23

任天堂の有報(右)をYomiTokuでMarkdownに変換してもらった(左) 一文字も誤字を見つけれなかったんだけど。カンマとドットも完璧に見える。全体で 0.16Bモデルらしい

First image displays side-by-side comparison with left side showing Markdown formatted text of Nintendos financial report including tables of numbers and Japanese text and right side showing original scanned document pages with similar tables and text. Second image shows another comparison view with highlighted sections in red on the Markdown side featuring numerical data and labels in Japanese. Third image presents a table titled 損益計算書 with columns for years from 2019 to 2023 rows for revenue operating income and other financial metrics with Japanese labels and numerical values.

Quote

きしだൠ(K1S)

@kis

Oct 21

任天堂の有報(右)をDeepSeek-OCRでMarkdownに変換してもらった(左) 一文字も誤字を見つけれなかったんだけど。カンマとドットも完璧に見える。

77K

Kotaro Kinoshita / MLism

@KINOCOAI

Apr 18

YomiTokuにMCPサーバーを実装しました。文書画像をMarkdwonやJSONなどに変換し、構造化情報を取得することが可能です。

The image showcases a demonstration of YomiToku's MCP server implementation, which converts document images into structured formats like Markdown or JSON. The post by Kotaro Kinoshita highlights the capability to extract structured information from document images, which can be integrated with LLM for advanced processing like VQA, NER, and visualization of relevant information within images. The image includes a sample of a Japanese identification card, with the extracted information displayed in both Markdown and JSON formats below it. This illustrates the practical application of the technology in real-world scenarios.

20K

Kotaro Kinoshita / MLism

@KINOCOAI

Sep 15

私は今までkaggleはほぼやってこなかった、どちらかと言うと実務志向の人間ですが、kagglerと比較され、kaggleをやってないから機械学習スキルは劣っているみたいなこと、機械学習を理解していない人から言われたことが何回もあります。これをkaggleハラスメントと呼んでいいですか？

20K

Kotaro Kinoshita / MLism

@KINOCOAI

Oct 27

起業を当たり前にした功績は素晴らしいと思う一方、個人的にはAI受託というビジネスモデルは中長期的に経済的な負け筋だと思う。・受託は浅いニーズの発掘にとどまり、深い課題に辿り着きにくい。・与えられた問題を解く力より、問題を見つける力が重要。

Quote

凍結さん

@venturecapita

Oct 27

松尾先生の偉大な功績。起業を当たり前のものにした。 x.com/shizuku_kai/st…

39K

Kotaro Kinoshita / MLism

@KINOCOAI

Oct 19

違和感があるのは、本来、実務成果で図るべきスキルをkaggleスキルで測ろうとする点 Kaggleのスキルは本来、実務スキルの内包関係にある。本来、実務の中でデータ理解・評価設計・改善サイクルを回していれば、Kaggleで培われるスキルは自然に身につくはず。

Quote

Yuyan

@MistMavGamer

Oct 17

僭越ながら、面談でKaggleが強い人だと、下記を無意識に想定している気がしていて、・技術への興味が深い・AIのモデリングの力(可視化・前処理・モデル選定・評価設計・チューニング・アンサンブルetc...)が高い x.com/smo_yutohisano…

65K

Kotaro Kinoshita / MLism

@KINOCOAI

Oct 23

VLMでOCRはもう終わりと言う人は、現場のデータを見たことがない。任天堂の有報はイージーサンプルで、実務文書はその何倍も複雑。ファインチューニングしても対応できないケースもある。現状、OCRが機能してるのは全体の業務の数％程度で、GPUインフラが全く整っていないという別の問題もある

8.5K

Kotaro Kinoshita / MLism

@KINOCOAI

Oct 29

地味に最適化を進めていて、普通の片面文書のOCR+レイアウト解析をそれなりの精度でCPUで3秒で推論できつつある

First image displays a detailed table with Japanese text entries in rows and columns covering topics like processing steps license checks and numerical data such as 2024 and 1155 with a section at bottom showing four labeled boxes containing Japanese terms like 画像 and icons. Second image shows similar table structure with highlighted sections in red outlining specific areas and bottom boxes with Japanese labels like 画像 and numerical values like 20. Third image presents console log output from yomit base INFO messages detailing timestamps for initial layout parser license table structure recognizer processing check table parser recognizer text detector and total processing time of 2.84 seconds.

8.6K

Kotaro Kinoshita / MLism

@KINOCOAI

Apr 4

YomiTokuアップデート情報 v0.8.1｜Kotaro.Kinoshita YomiTokuで手書き文字の読み取りがサポートされました。手書き文字の認識精度が大幅に改善しています。その他アップデートもあります。

@KINOCOAI

#note note.com/kotaro_kinoshi

The image is a screenshot of a table showing a comparison of expenses before and after an update. The table is titled "経費報告" (Expense Report) and lists various expense categories in Japanese, such as "材料費" (Material Cost), "外注費" (Outsourcing Cost), "消耗品費" (Consumables Cost), "旅費" (Travel Expenses), "通信費" (Communication Cost), and "諸費" (Miscellaneous Expenses). Each category has two columns: "更新前" (Before Update) and "更新後" (After Update), with the corresponding costs listed. The post text indicates that this is an update for YomiToku, which now supports handwriting recognition, significantly improving the accuracy of handwritten text recognition. This context suggests the image is demonstrating the effectiveness of the update in recognizing handwritten numbers and text.

18K

Kotaro Kinoshita / MLism

@KINOCOAI

Dec 7, 2024

個人的にML（画像）系のプロジェクトは定量評価をもちろん重要だけど、定性評価がをすごく重要視してる。

8.3K

Kotaro Kinoshita / MLism

@KINOCOAI

Nov 27, 2024

YomiTokuが予想以上に反響があり、びっくりしております。YomiTokuは開発し始めてから日が浅く、私自身でも網羅的な検証は行えていません。これから内部のモデルの方も継続的にアップデートしていきたいと考えていますので、こういうデータが読み取れなかったとかあれば、是非、FBをお願いします。

3.5K

Kotaro Kinoshita / MLism

@KINOCOAI

Feb 13

YomiTokuを正式に製品としてリリースしました。すでに複数の企業に導入いただいています。

prtimes.jp

MLism株式会社、独自AIを搭載し、日本語に特化した文書画像解析エンジン「YomiToku-Pro」をリリース

MLism株式会社のプレスリリース（2025年2月13日 12時00分）MLism株式会社、独自AIを搭載し、日本語に特化した文書画像解析エンジン「YomiToku-Pro」をリリース

2.9K

Kotaro Kinoshita / MLism

@KINOCOAI

Feb 6

YomiTokuはオープンソースにするか、クローズドにするか、公開しつつ商用は有償にするかとか、色々な提供パターンと懸念事項を考えたもとで、今の形態に落ち着いています。

3.3K

Kotaro Kinoshita / MLism

@KINOCOAI

Nov 21, 2024

記事を投稿しました！ OCR、文書画像解析技術の紹介と動向 [自然言語処理] on #Qiita

OCR、文書画像解析技術の紹介と動向 - Qiita

From qiita.com

2.3K

Kotaro Kinoshita / MLism

@KINOCOAI

Mar 26

日本の文書のヤバイ表の認識精度を極めたい

1.9K

Kotaro Kinoshita / MLism

@KINOCOAI

Jul 3

前職からOCR案件を結構、色々やっているので、YomiTokuの適切なパラメータ設定とか、どうやったらOCRの精度が上がるかとか、個人的に勘所は理解しているのだけど、お客さん側で適切なパラメータ設定がされない状態でうまくいきませんでしたとかいうのも、ちょくちょく見かけるので、その辺のアセスメン

2.5K

Kotaro Kinoshita / MLism

@KINOCOAI

Nov 24, 2024

記事を投稿しました！ UVをベースとしたモダンなPythonプロジェクト管理 on #Qiita

uvをベースとしたモダンなPythonプロジェクト管理 - Qiita

From qiita.com

2.1K

Kotaro Kinoshita / MLism

@KINOCOAI

Mar 22

手書き文字認識の学習開始。学習序盤だけど悪くない。私が書いた汚い字も意外と読めている。ここからどこまで精度がどこまで伸びてくれるか

Kotaro Kinoshita / MLism

@KINOCOAI

Dec 23, 2024

YomiToku 0.6.0(python 3.10 >=)にて、文字認識モデルの軽量版モデルが使用可能になりました。使用するマシンスペックにもよりますが、従来と比較して、(CPU, GPU共に)処理時間を25%以上削減可能です。 CLIに--liteオプションをつけることで実行可能です。

1.9K

Kotaro Kinoshita / MLism

@KINOCOAI

Dec 3, 2024

github.com/kotaro-kinoshi なんかライセンスのことを色々言われているけど、個人的に指摘箇所は全然、正しくないと思うんだけど。ライセンス違反しているんだったら、ちゃんと修正すべきところは、修正するので、ライセンス詳しい人教えて欲しい。

ライセンス違反状態、および現行のライセンスには課題がある · Issue #51 · kotaro-kinoshita/yomitoku

From github.com

7.9K

Kotaro Kinoshita / MLism

@KINOCOAI

May 1

開発中のYomiToku Mobile。API経由ではなくタブレット端末上で動くのでオフライン環境でもOCR処理可能

1.5K

Kotaro Kinoshita / MLism

@KINOCOAI

Dec 12, 2024

MLism株式会社を設立しました。YomiTokuに関する問い合わせは以下のサイトからお問い合わせください。

mlism.com

MLism株式会社 | Yomitoku

MLism株式会社は日本語文書画像の組み込み型文書解析エンジンYomiTokuの開発、ライセンス販売を行う。AI-OCR, レイアウト解析を行う独自開発のAIモデルを搭載。お客様のお手持ちのサーバーでセキュアに日本語の文書を解析できます。

2.3K

Kotaro Kinoshita / MLism

@KINOCOAI

May 16

アノテーションは大変

2.1K

Kotaro Kinoshita / MLism

@KINOCOAI

Jun 24

次リリース予定(pro版のみの予定) ・図、表キャプション抽出、割当・リスト階層構造解析・数式検知(認識は未実装) ・QRコード解析などなど

Kotaro Kinoshita / MLism

@KINOCOAI

Jan 5

YomiTokuアップデート情報 v0.7.1｜Kotaro.Kinoshita

@KINOCOAI

#note

YomiTokuアップデート情報 v0.7.1｜Kotaro.Kinoshita

From note.com

915

Kotaro Kinoshita / MLism

@KINOCOAI

Jun 19

Yomitokuの開発で副業、業務委託でエンジニアをゆるく募集中です。・バックエンドエンジニア[クラウド] ・機械学習エンジニア[画像、NLP] ・データエンジニア詳細は以下をご確認お問い合わせください。

mlism.com

採用情報 | MLism

2.1K

Kotaro Kinoshita / MLism

@KINOCOAI

Oct 24

詳しくは解説しませんが、OCRは淘汰されるからやらなくていいというわけではなく、従来のOCRとVLM-OCRは全く別枠の技術ではなくて、VLM-OCRは従来のOCRの延長線上の技術であって、そもそもOCRが基礎技術が成立してないと、VLM-OCRは実現できないという話

1.9K

Kotaro Kinoshita / MLism

@KINOCOAI

Oct 19

kaggleと業務領域は重複があるので、実務だけでも手法選択、精度改善、精度評価など広義の機械学習のスキルは本来、身につくのが正しい環境という意図です。

Quote

カレーちゃん

@currypurin

Oct 19

Kaggleは筋トレって考えてもらうのが一番よくて。特定の部位だけを鍛えることをひたすらやるので。その特定の能力に関しては、強くて当然。ひたすらベンチプレスだけやっているが人います。普通にスポーツやっている人がいます。ベンチプレスでは前者の人が強いですという意味。 > x.com/KINOCOAI/statu…