PinnedKotaro Kinoshita / MLism@KINOCOAI·Nov 10日本語特化AI-OCR「YomiToku-Pro」をAWS Marketplaceで商用提供開始しました。データはお客様のAWS環境内で専用APIにより安全に処理され、社内文書や機密データも高速・高精度に解析可能です。 併せてOSS「YomiToku-Client」も公開。CLI・バッチ処理・可視化機能でAPIの性能を最大限に引き出します。413971471K
Kotaro Kinoshita / MLism@KINOCOAI·Nov 26, 2024日本語の文書画像解析、OCRに対応したPythonパッケージ「YomiToku」を公開しました。 独自に学習したAIが搭載されており、ローカルサーバーでPDFや文書画像の解析、OCRや表の構造解析、レイアウト解析が可能です。結果はHTMLやCSV, JSON, Markdownといった形式でエクスポート可能です。Show more165882.6K260K
Kotaro Kinoshita / MLism@KINOCOAI·Nov 26, 2024日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita @KINOCOAI #note日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.KinoshitaFrom note.com2561K76K
Kotaro Kinoshita / MLism@KINOCOAI·Oct 30OCRで仕事してる自分でもそう思うけど、紙って情報インタフェース、情報媒体として優れすぎてるんですよねQuoteいぐぞー@書籍執筆中 旅するプログラマー@igz0·Oct 29DXや業務効率化の案件でお偉いさんが話している際に「OCR」って言葉が出てきた瞬間に 「それって帳票を電子化したらそもそも必要なくなりますよね?」 って言うだけで年収は1億ドル超えるし今は広い芝生付きの家でクソデカい猫を撫でているだけで暮らせているわ。186490129K
Kotaro Kinoshita / MLism@KINOCOAI·Nov 5GPU不要でOCRとレイアウト解析を実現する軽量日本語AI-OCRモデルをリリースしました。CPUで添付の画像を約3秒で読み取りを実現。縦書き、手書き文字、旧字体、異体字(﨑・濵など)の読み取りにも対応しています。 YomiTokuの最新バージョンで利用可能です。 https://github.com/kotaro-kinoshita/yomitoku…12881.3K99K
Kotaro Kinoshita / MLism@KINOCOAI·Oct 23任天堂の有報(右)をYomiTokuでMarkdownに変換してもらった(左) 一文字も誤字を見つけれなかったんだけど。カンマとドットも完璧に見える。 全体で 0.16BモデルらしいQuoteきしだൠ(K1S)@kis·Oct 21任天堂の有報(右)をDeepSeek-OCRでMarkdownに変換してもらった(左) 一文字も誤字を見つけれなかったんだけど。カンマとドットも完璧に見える。13837177K
Kotaro Kinoshita / MLism@KINOCOAI·Apr 18YomiTokuにMCPサーバーを実装しました。文書画像をMarkdwonやJSONなどに変換し、構造化情報を取得することが可能です。Show more3820220K
Kotaro Kinoshita / MLism@KINOCOAI·Sep 15私は今までkaggleはほぼやってこなかった、どちらかと言うと実務志向の人間ですが、kagglerと比較され、kaggleをやってないから機械学習スキルは劣っているみたいなこと、機械学習を理解していない人から言われたことが何回もあります。これをkaggleハラスメントと呼んでいいですか?11215420K
Kotaro Kinoshita / MLism@KINOCOAI·Oct 27起業を当たり前にした功績は素晴らしいと思う一方、個人的にはAI受託というビジネスモデルは中長期的に経済的な負け筋だと思う。 ・受託は浅いニーズの発掘にとどまり、深い課題に辿り着きにくい。 ・与えられた問題を解く力より、問題を見つける力が重要。Show moreQuote凍結さん@venturecapita·Oct 27松尾先生の偉大な功績。起業を当たり前のものにした。 x.com/shizuku_kai/st…21213239K
Kotaro Kinoshita / MLism@KINOCOAI·Oct 19違和感があるのは、本来、実務成果で図るべきスキルをkaggleスキルで測ろうとする点 Kaggleのスキルは本来、実務スキルの内包関係にある。本来、実務の中でデータ理解・評価設計・改善サイクルを回していれば、Kaggleで培われるスキルは自然に身につくはず。Show moreQuoteYuyan@MistMavGamer·Oct 17僭越ながら、面談でKaggleが強い人だと、下記を無意識に想定している気がしていて、 ・技術への興味が深い ・AIのモデリングの力(可視化・前処理・モデル選定・評価設計・チューニング・アンサンブルetc...)が高い x.com/smo_yutohisano…Show more1710365K
Kotaro Kinoshita / MLism@KINOCOAI·Oct 23VLMでOCRはもう終わりと言う人は、現場のデータを見たことがない。任天堂の有報はイージーサンプルで、実務文書はその何倍も複雑。ファインチューニングしても対応できないケースもある。現状、OCRが機能してるのは全体の業務の数%程度で、GPUインフラが全く整っていないという別の問題もある17988.5K
Kotaro Kinoshita / MLism@KINOCOAI·Oct 29地味に最適化を進めていて、普通の片面文書のOCR+レイアウト解析をそれなりの精度でCPUで3秒で推論できつつある15828.6K
Kotaro Kinoshita / MLism@KINOCOAI·Apr 4YomiTokuアップデート情報 v0.8.1|Kotaro.Kinoshita YomiTokuで手書き文字の読み取りがサポートされました。手書き文字の認識精度が大幅に改善しています。その他アップデートもあります。 @KINOCOAI #note https://note.com/kotaro_kinoshita/n/n9f597e2e51d7?sub_rt=share_pb…75318K
Kotaro Kinoshita / MLism@KINOCOAI·Dec 7, 2024個人的にML(画像)系のプロジェクトは定量評価をもちろん重要だけど、定性評価がをすごく重要視してる。Show more12478.3K
Kotaro Kinoshita / MLism@KINOCOAI·Nov 27, 2024YomiTokuが予想以上に反響があり、びっくりしております。YomiTokuは開発し始めてから日が浅く、私自身でも網羅的な検証は行えていません。これから内部のモデルの方も継続的にアップデートしていきたいと考えていますので、こういうデータが読み取れなかったとかあれば、是非、FBをお願いします。14443.5K
Kotaro Kinoshita / MLism@KINOCOAI·Feb 13YomiTokuを正式に製品としてリリースしました。すでに複数の企業に導入いただいています。prtimes.jpMLism株式会社、独自AIを搭載し、日本語に特化した文書画像解析エンジン「YomiToku-Pro」をリリースMLism株式会社のプレスリリース(2025年2月13日 12時00分)MLism株式会社、独自AIを搭載し、日本語に特化した文書画像解析エンジン「YomiToku-Pro」をリリース7412.9K
Kotaro Kinoshita / MLism@KINOCOAI·Feb 6YomiTokuはオープンソースにするか、クローズドにするか、公開しつつ商用は有償にするかとか、色々な提供パターンと懸念事項を考えたもとで、今の形態に落ち着いています。Show more3343.3K
Kotaro Kinoshita / MLism@KINOCOAI·Nov 21, 2024記事を投稿しました! OCR、文書画像解析技術の紹介と動向 [自然言語処理] on #QiitaOCR、文書画像解析技術の紹介と動向 - QiitaFrom qiita.com13262.3K
Kotaro Kinoshita / MLism@KINOCOAI·Jul 3前職からOCR案件を結構、色々やっているので、YomiTokuの適切なパラメータ設定とか、どうやったらOCRの精度が上がるかとか、個人的に勘所は理解しているのだけど、お客さん側で適切なパラメータ設定がされない状態でうまくいきませんでしたとかいうのも、ちょくちょく見かけるので、その辺のアセスメンShow more2292.5K
Kotaro Kinoshita / MLism@KINOCOAI·Nov 24, 2024記事を投稿しました! UVをベースとしたモダンなPythonプロジェクト管理 on #QiitauvをベースとしたモダンなPythonプロジェクト管理 - QiitaFrom qiita.com2252.1K
Kotaro Kinoshita / MLism@KINOCOAI·Mar 22手書き文字認識の学習開始。学習序盤だけど悪くない。私が書いた汚い字も意外と読めている。ここからどこまで精度がどこまで伸びてくれるか1252K
Kotaro Kinoshita / MLism@KINOCOAI·Dec 23, 2024YomiToku 0.6.0(python 3.10 >=)にて、文字認識モデルの軽量版モデルが使用可能になりました。 使用するマシンスペックにもよりますが、従来と比較して、(CPU, GPU共に)処理時間を25%以上削減可能です。 CLIに--liteオプションをつけることで実行可能です。3231.9K
Kotaro Kinoshita / MLism@KINOCOAI·Dec 3, 2024https://github.com/kotaro-kinoshita/yomitoku/issues/51#issue-2714539846… なんかライセンスのことを色々言われているけど、個人的に指摘箇所は全然、正しくないと思うんだけど。 ライセンス違反しているんだったら、ちゃんと修正すべきところは、修正するので、ライセンス詳しい人教えて欲しい。ライセンス違反状態、および現行のライセンスには課題がある · Issue #51 · kotaro-kinoshita/yomitokuFrom github.com5237.9K
Kotaro Kinoshita / MLism@KINOCOAI·May 1開発中のYomiToku Mobile。API経由ではなくタブレット端末上で動くのでオフライン環境でもOCR処理可能5281.5K
Kotaro Kinoshita / MLism@KINOCOAI·Dec 12, 2024MLism株式会社を設立しました。YomiTokuに関する問い合わせは以下のサイトからお問い合わせください。mlism.comMLism株式会社 | YomitokuMLism株式会社は日本語文書画像の組み込み型文書解析エンジンYomiTokuの開発、ライセンス販売を行う。AI-OCR, レイアウト解析を行う独自開発のAIモデルを搭載。お客様のお手持ちのサーバーでセキュアに日本語の文書を解析できます。14182.3K
Kotaro Kinoshita / MLism@KINOCOAI·Jun 24次リリース予定(pro版のみの予定) ・図、表キャプション抽出、割当 ・リスト階層構造解析 ・数式検知(認識は未実装) ・QRコード解析 などなど13211K
Kotaro Kinoshita / MLism@KINOCOAI·Jan 5YomiTokuアップデート情報 v0.7.1|Kotaro.Kinoshita @KINOCOAI #noteYomiTokuアップデート情報 v0.7.1|Kotaro.KinoshitaFrom note.com520915
Kotaro Kinoshita / MLism@KINOCOAI·Jun 19Yomitokuの開発で副業、業務委託でエンジニアをゆるく募集中です。 ・バックエンドエンジニア[クラウド] ・機械学習エンジニア[画像、NLP] ・データエンジニア 詳細は以下をご確認お問い合わせください。Show moremlism.com採用情報 | MLism5222.1K
Kotaro Kinoshita / MLism@KINOCOAI·Oct 24詳しくは解説しませんが、OCRは淘汰されるからやらなくていいというわけではなく、従来のOCRとVLM-OCRは全く別枠の技術ではなくて、VLM-OCRは従来のOCRの延長線上の技術であって、そもそもOCRが基礎技術が成立してないと、VLM-OCRは実現できないという話12201.9K
Kotaro Kinoshita / MLism@KINOCOAI·Oct 19kaggleと業務領域は重複があるので、実務だけでも手法選択、精度改善、精度評価など広義の機械学習のスキルは本来、身につくのが正しい環境という意図です。Show moreQuoteカレーちゃん@currypurin·Oct 19Kaggleは筋トレ って考えてもらうのが一番よくて。 特定の部位だけを鍛えることをひたすらやるので。その特定の能力に関しては、強くて当然。 ひたすらベンチプレスだけやっているが人います。普通にスポーツやっている人がいます。ベンチプレスでは前者の人が強いですという意味。 > x.com/KINOCOAI/statu…Show more12014K
Kotaro Kinoshita / MLism@KINOCOAI·Apr 17弊社のYomiTokuも、おかげさまで導入企業も増えてきて、規模が大きな案件の引き合いも増えてきており、会社は軌道に乗りつつあります。会社運営のための固定費や営業・広告費用などはかなり低い状態で回せているので、売上はガンガン開発費への投資に回していきたいですね。2191.2K
Kotaro Kinoshita / MLism@KINOCOAI·Oct 19色々考えてみて感じるのは、国内のAI業界の最大のボトルネックは、技術を理解し、事業と接続し、AIの中長期的な成長戦略を描き、エンジニアを正しく評価できるマネジメント層・経営層が極めて少ないことなのではないかと感じる。Show more5191.9K
Kotaro Kinoshita / MLism@KINOCOAI·Feb 28こういうのって実際の業務でも起こるよね。自分も似たような経験があるので。。期待値コントロールとかデータ収集の要件設計とか大事だけど、実際そこが一番難しいQuotechip@chippwah·Feb 28研究で悲しいことがあったので誰かに話を聞いてほしい。自分の音声認識の研究の話を聞いた他大学の言語学のPhD学生が「音声認識を使って自分の調査言語の自動書き起こしをしたい」と去年の秋くらいに話を持ちかけてきた。 1/n41910K
Kotaro Kinoshita / MLism@KINOCOAI·Jul 18時々、お前、本当に生活できているのか?みたいに心配いただくのですが、実は創業してから、150社以上から問い合わせいただいており、暇そうに見えて、常時10~20社ぐらいを相手に営業やサポートしていたりします。現一期目の途中ですが、今のところは黒字経営なので、ご心配なく、、2182K
Kotaro Kinoshita / MLism@KINOCOAI·Nov 28, 2024LayoutLMv3の事前学習、KIE、手書き文字認識対応は優先度高めに思ってて、早めにやりたいが、シンプルに開発資金がない2142.9K