世界中から盗んだ100TB分の著作物を2GBに圧縮したものをデータセットとして積んでるんですよ。
そのデータセットから検索条件(プロンプト)に合うものを選び出し、合成・出力しておきながらオリジナル面してるのが生成型検索エンジン(自称:生成AI)というソフトウェアです(itmedia.co.jp/news/articles/)。
Quote
Emad
@EMostaque
Replying to @EMostaque
We took a representative set of 5.6 billion images from the internet, filtered out weird and low quality stuff to 2 billion, 100 terabytes, and squished it to a 2 Gb file we are making available for anyone to use versus monopolising it.