(cache)犭藍＠反ミーム(Explained)🇺🇦 on X: "@onigirya0002317 世界中から盗んだ100TB分の著作物を2GBに圧縮したものをデータセットとして積んでるんですよ。そのデータセットから検索条件(プロンプト)に合うものを選び出し、合成・出力しておきながらオリジナル面してるのが生成型検索エンジン(自称:生成AI)というソフトウェアです(https://t.co/PiltmnxYKd)。" / X

世界中から盗んだ100TB分の著作物を2GBに圧縮したものをデータセットとして積んでるんですよ。そのデータセットから検索条件(プロンプト)に合うものを選び出し、合成・出力しておきながらオリジナル面してるのが生成型検索エンジン(自称:生成AI)というソフトウェアです(itmedia.co.jp/news/articles/)。

Quote

Emad

@EMostaque

Aug 13, 2022

Replying to @EMostaque

We took a representative set of 5.6 billion images from the internet, filtered out weird and low quality stuff to 2 billion, 100 terabytes, and squished it to a 2 Gb file we are making available for anyone to use versus monopolising it.

11:46 AM · Aug 11, 2025

1,708

Views

Post

Conversation