Kotaro Kinoshita / MLism

626 posts
Opens profile photo
Kotaro Kinoshita / MLism
@KINOCOAI
MLism Inc. / YomiTokuの商用利用に関してはmlism.comにお問い合わせください/機械学習、 画像処理、文書画像解析
Joined October 2024

Kotaro Kinoshita / MLism’s posts

Pinned
日本語特化AI-OCR「YomiToku-Pro」をAWS Marketplaceで商用提供開始しました。データはお客様のAWS環境内で専用APIにより安全に処理され、社内文書や機密データも高速・高精度に解析可能です。 併せてOSS「YomiToku-Client」も公開。CLI・バッチ処理・可視化機能でAPIの性能を最大限に引き出します。
First image shows a spiral-bound notebook page with handwritten Japanese text and annotations, including numbered lists, circled characters, and sticky notes on a wooden desk surface. Second image displays a table with columns for input text samples, output results, and performance scores like accuracy percentages, bordered in blue and yellow, alongside a paragraph of explanatory Japanese text below detailing OCR processing capabilities.
日本語の文書画像解析、OCRに対応したPythonパッケージ「YomiToku」を公開しました。 独自に学習したAIが搭載されており、ローカルサーバーでPDFや文書画像の解析、OCRや表の構造解析、レイアウト解析が可能です。結果はHTMLやCSV, JSON, Markdownといった形式でエクスポート可能です。
OCRで仕事してる自分でもそう思うけど、紙って情報インタフェース、情報媒体として優れすぎてるんですよね
Quote
いぐぞー@書籍執筆中 ✈️ 旅するプログラマー
@igz0
DXや業務効率化の案件でお偉いさんが話している際に「OCR」って言葉が出てきた瞬間に 「それって帳票を電子化したらそもそも必要なくなりますよね?」 って言うだけで年収は1億ドル超えるし今は広い芝生付きの家でクソデカい猫を撫でているだけで暮らせているわ。
GPU不要でOCRとレイアウト解析を実現する軽量日本語AI-OCRモデルをリリースしました。CPUで添付の画像を約3秒で読み取りを実現。縦書き、手書き文字、旧字体、異体字(﨑・濵など)の読み取りにも対応しています。 YomiTokuの最新バージョンで利用可能です。 github.com/kotaro-kinoshi
任天堂の有報(右)をYomiTokuでMarkdownに変換してもらった(左) 一文字も誤字を見つけれなかったんだけど。カンマとドットも完璧に見える。 全体で 0.16Bモデルらしい
First image displays side-by-side comparison with left side showing Markdown formatted text of Nintendos financial report including tables of numbers and Japanese text and right side showing original scanned document pages with similar tables and text. Second image shows another comparison view with highlighted sections in red on the Markdown side featuring numerical data and labels in Japanese. Third image presents a table titled 損益計算書 with columns for years from 2019 to 2023 rows for revenue operating income and other financial metrics with Japanese labels and numerical values.
Quote
きしだൠ(K1S)
@kis
Image
任天堂の有報(右)をDeepSeek-OCRでMarkdownに変換してもらった(左) 一文字も誤字を見つけれなかったんだけど。カンマとドットも完璧に見える。
YomiTokuにMCPサーバーを実装しました。文書画像をMarkdwonやJSONなどに変換し、構造化情報を取得することが可能です。
The image showcases a demonstration of YomiToku's MCP server implementation, which converts document images into structured formats like Markdown or JSON. The post by Kotaro Kinoshita highlights the capability to extract structured information from document images, which can be integrated with LLM for advanced processing like VQA, NER, and visualization of relevant information within images. The image includes a sample of a Japanese identification card, with the extracted information displayed in both Markdown and JSON formats below it. This illustrates the practical application of the technology in real-world scenarios.
The image showcases a demonstration of YomiToku's MCP server implementation, which converts document images into structured formats like Markdown or JSON. The post by Kotaro Kinoshita highlights the capability to extract structured information from document images, which can be integrated with LLM for advanced processing like VQA, NER, and visualization of relevant information within images. The image includes a sample of a Japanese identification card, with the extracted information displayed in both Markdown and JSON formats below it. This illustrates the practical application of the technology in real-world scenarios.
私は今までkaggleはほぼやってこなかった、どちらかと言うと実務志向の人間ですが、kagglerと比較され、kaggleをやってないから機械学習スキルは劣っているみたいなこと、機械学習を理解していない人から言われたことが何回もあります。これをkaggleハラスメントと呼んでいいですか?
起業を当たり前にした功績は素晴らしいと思う一方、個人的にはAI受託というビジネスモデルは中長期的に経済的な負け筋だと思う。 ・受託は浅いニーズの発掘にとどまり、深い課題に辿り着きにくい。 ・与えられた問題を解く力より、問題を見つける力が重要。
Quote
凍結さん
@venturecapita
松尾先生の偉大な功績。起業を当たり前のものにした。 x.com/shizuku_kai/st…
違和感があるのは、本来、実務成果で図るべきスキルをkaggleスキルで測ろうとする点 Kaggleのスキルは本来、実務スキルの内包関係にある。本来、実務の中でデータ理解・評価設計・改善サイクルを回していれば、Kaggleで培われるスキルは自然に身につくはず。
Quote
Yuyan
@MistMavGamer
僭越ながら、面談でKaggleが強い人だと、下記を無意識に想定している気がしていて、 ・技術への興味が深い ・AIのモデリングの力(可視化・前処理・モデル選定・評価設計・チューニング・アンサンブルetc...)が高い x.com/smo_yutohisano…
Show more
VLMでOCRはもう終わりと言う人は、現場のデータを見たことがない。任天堂の有報はイージーサンプルで、実務文書はその何倍も複雑。ファインチューニングしても対応できないケースもある。現状、OCRが機能してるのは全体の業務の数%程度で、GPUインフラが全く整っていないという別の問題もある
YomiTokuが予想以上に反響があり、びっくりしております。YomiTokuは開発し始めてから日が浅く、私自身でも網羅的な検証は行えていません。これから内部のモデルの方も継続的にアップデートしていきたいと考えていますので、こういうデータが読み取れなかったとかあれば、是非、FBをお願いします。
YomiTokuはオープンソースにするか、クローズドにするか、公開しつつ商用は有償にするかとか、色々な提供パターンと懸念事項を考えたもとで、今の形態に落ち着いています。
前職からOCR案件を結構、色々やっているので、YomiTokuの適切なパラメータ設定とか、どうやったらOCRの精度が上がるかとか、個人的に勘所は理解しているのだけど、お客さん側で適切なパラメータ設定がされない状態でうまくいきませんでしたとかいうのも、ちょくちょく見かけるので、その辺のアセスメン
手書き文字認識の学習開始。学習序盤だけど悪くない。私が書いた汚い字も意外と読めている。ここからどこまで精度がどこまで伸びてくれるか
Image
YomiToku 0.6.0(python 3.10 >=)にて、文字認識モデルの軽量版モデルが使用可能になりました。 使用するマシンスペックにもよりますが、従来と比較して、(CPU, GPU共に)処理時間を25%以上削減可能です。 CLIに--liteオプションをつけることで実行可能です。
github.com/kotaro-kinoshi なんかライセンスのことを色々言われているけど、個人的に指摘箇所は全然、正しくないと思うんだけど。 ライセンス違反しているんだったら、ちゃんと修正すべきところは、修正するので、ライセンス詳しい人教えて欲しい。
次リリース予定(pro版のみの予定) ・図、表キャプション抽出、割当 ・リスト階層構造解析 ・数式検知(認識は未実装) ・QRコード解析 などなど
Image
Image
Image
Yomitokuの開発で副業、業務委託でエンジニアをゆるく募集中です。 ・バックエンドエンジニア[クラウド] ・機械学習エンジニア​[画像、NLP] ・データエンジニア 詳細は以下をご確認お問い合わせください。
詳しくは解説しませんが、OCRは淘汰されるからやらなくていいというわけではなく、従来のOCRとVLM-OCRは全く別枠の技術ではなくて、VLM-OCRは従来のOCRの延長線上の技術であって、そもそもOCRが基礎技術が成立してないと、VLM-OCRは実現できないという話
kaggleと業務領域は重複があるので、実務だけでも手法選択、精度改善、精度評価など広義の機械学習のスキルは本来、身につくのが正しい環境という意図です。
Quote
カレーちゃん
@currypurin
Kaggleは筋トレ って考えてもらうのが一番よくて。 特定の部位だけを鍛えることをひたすらやるので。その特定の能力に関しては、強くて当然。 ひたすらベンチプレスだけやっているが人います。普通にスポーツやっている人がいます。ベンチプレスでは前者の人が強いですという意味。 > x.com/KINOCOAI/statu…
Show more
弊社のYomiTokuも、おかげさまで導入企業も増えてきて、規模が大きな案件の引き合いも増えてきており、会社は軌道に乗りつつあります。会社運営のための固定費や営業・広告費用などはかなり低い状態で回せているので、売上はガンガン開発費への投資に回していきたいですね。
色々考えてみて感じるのは、国内のAI業界の最大のボトルネックは、技術を理解し、事業と接続し、AIの中長期的な成長戦略を描き、エンジニアを正しく評価できるマネジメント層・経営層が極めて少ないことなのではないかと感じる。
こういうのって実際の業務でも起こるよね。自分も似たような経験があるので。。期待値コントロールとかデータ収集の要件設計とか大事だけど、実際そこが一番難しい
Quote
chip
@chippwah
研究で悲しいことがあったので誰かに話を聞いてほしい。自分の音声認識の研究の話を聞いた他大学の言語学のPhD学生が「音声認識を使って自分の調査言語の自動書き起こしをしたい」と去年の秋くらいに話を持ちかけてきた。 1/n
時々、お前、本当に生活できているのか?みたいに心配いただくのですが、実は創業してから、150社以上から問い合わせいただいており、暇そうに見えて、常時10~20社ぐらいを相手に営業やサポートしていたりします。現一期目の途中ですが、今のところは黒字経営なので、ご心配なく、、