Odashi

8,626 posts
Opens profile photo
Odashi
@odashi_t
研究者の真似事をしています。 機械翻訳(上級)LLM(中級)量子計算(初級)
Tokyo, Japan

Odashi’s posts

Pinned
そういえば著作権に関連して、研究所の方で「LLMが学習データを暗記する具体的メカニズム」について研究しようと思っています。研究に必要な計算資源や研究用の言語資料は用意があるので、興味のある方(学生)は自分に一声かけてください。
おもちゃが手に入ったときの草の根活動は日本最強だと思うんですよね。事業化するのがとにかく下手
Quote
刈宮 宥
@Callimiya
みんな、OpenAIのCEOに褒めてもらってるよ
Image
実務的な禁忌を民衆に強要するために呪術的な理由を付与するの、聖典に書かれたタブーという趣がある
Quote
Kosuke Sawa
@kosukesa
今年もこれを取り上げる時期がやってきた
Image
Rate limit受けた状態で適当な返信欄を開くとTwitterが自前でDoS攻撃し始めるのかわいい。
Image
これは秘密なんですが、ChatGPTに確実に仕事してもらうよう書かれたpromptは、人間にとってもよい指示書になっています。
TODO管理アプリ、それが使える人はアプリなくてもTODO管理でき、使えない人には用事がないというやつなので、アプリで作り出された需要という感じが強い
英語圏の議論見てるとGPT-4 → GPT-4o でコード生成タスクが壊滅的に悪くなってるみたいなので、モダリティ追加して何かが犠牲になったらしい。
ただのエラーだと最初から言われているものに誰かがhallucinationなどという大層な名前を付けたせいで業界が何年も混乱させられている例
Quote
Kosuke
@kosuke_agos
Replying to @kosuke_agos
OpenAIは「ハルシネーションは神秘的な現象ではなく、単なる統計的な分類エラーだ」と結論付けています。AIの嘘はバグではなく、現在の評価システムが生み出した必然的な結果で、評価方法を変えるだけで、より正直なAIが生まれるとのことです。 x.com/kosuke_agos/st
GitHub、とにかくPull Requestの点数稼ぎでどうでもいい修正を送ってくる輩がいるのは何とかならないのか。今までに遭遇した最も酷いものは「READMEを良くした」と言ってPythonのライブラリのREADMEにヘビのemojiを追加してきたやつ。
考え方の勉強であれば Software Engineering at Google. これ以外の本は全部後回しでいい。英語版は無料。 abseil.io/resources/swe-
Quote
Seitaro Shinagawa
@sei_shinagawa
【ゆる募】インターンの学生さんにチーム開発を考える上で紹介したい良資料
これが言語モデルの正確な定義です。解釈でも何でもなく定義です。北研二『確率的言語モデル』(東京大学出版会)p.23-24 など参照して下さい。
Quote
Odashi
@odashi_t
Q「言語モデルとはなんですか」 A「文字列の確率分布です」
GPT-4の料金すごい高い気はするんですが、年収500万円の助教がいたとして、この人が1.5秒喋ると1円の人件費なんですね。こういう邪悪な比較は止めたほうが良さそうですね。
「社会人になって十数年」 博士課程にいた人「妙だな」
Quote
安達裕哉
@Books_Apps
個人的に、35歳あたりから、仕事が恐ろしく退屈になった記憶がある。 35歳といえばどんな年だろうか。 社会人になって十数年、仕事はそれなりにできる。頼りにしてくれる後輩や部下もいる。 給料もそれなりに貰っていて、信頼を積み上げているお陰で、社内で好きなこともある程度はできる。
Show more
自分の認知を超えるものは活用できないので、元々プログラミングできる人の方がvibe codingはうまいし、元々絵心がある人の方が画像生成の使い方はうまい、ということで結局人間側の専門分野への習熟は回避できない
社員が会社の不満をSNSに流すのは許されず、なぜ上位職が社員をSNSで論評するのは許されると思うのか?
この「追いつけないから無駄」論法を国の科学技術政策で展開すると安保上大変に危険なので注意したいですね。たとえば常に3年ビハインドしてても、自国で開発技術を持っているのとそうでないのは政策上の取りうる選択肢が異なる。
Quote
Hirosato Gamo | AI Cloud Solution Architect
@hiro_gamo
「国内で独自LLM開発やったって追いつけないから無駄」という論調はよく見るけど、メインベンダのLLMは英語と比較すると日本語はコスト効率が悪くなっていて、その差は諸説あるが2倍近いとされている。もちろん精度も悪い。今はかなり進化が激しいので追いつくのは難しいかも知れないが、LLMがあらゆる
Show more
査読してると「この手法はよくできているが、未来永劫使われることはないだろうな」というものを頻繁に読まされるのが辛い。研究成果のためだけに作り上げられた手法。
リモートワーク前提で入社した人のパフォーマンスが上がらないの、まともなオンボーディングとドキュメンテーションがないからであるのが理由の大半を占めていると思う。
「学術的な実績はないがAI研究者を名乗っているアカウント」という邪悪な名前のリストを運用したくなってきた。
省庁がChatGPT導入するのが異様に早いわけですけど、単に技術が革新的だから、というだけではあの鈍重な組織がこうも素早く動くとは思えないので、他にどういう要因があれば刺さるのかをもうちょっと考察すべきだと思います。
複雑怪奇なSQLを「これpandasで書いて」とGPT3.5に言ったら全部書き換えてくれたので仕事が終わった。
これはJupyterが普及し出したあたりで結構顕在化していた。書いては実行するスタイル以外でコードを書けない学生やエンジニアがおり、よしんば動くコードが出来ても整合性を担保する(例えばテストを書く)能力がない。
Quote
開発室Graph
@stu3dio_graph
プログラミング身につける前にCopilotとかChatGPTがなくてほんとうによかったな。このコード書いてって言って出てきたの参考にして書き始めるとまったく理解してなくてもなんか書けちゃう。これなんかプログラミングできる気になっちゃって危険だなあ…
・インターンしなくても就職するだけならできる ・インターンした方が入りやすい会社がある ・大学院生は研究活動をすべきである ・研究職に就職したければ研究業績が必要である ・研究だけしていても企業の求める能力は身に付かない くらいの前提は必要かしら…
Quote
開発室Graph
@stu3dio_graph
「インターンなんてしなくても就職できるので研究と勉強をがんばるべき」と言っているアカウント,生存バイアスにまみれているし業績で戦えるくらい研究と勉強がんばるより多くの人にとってはインターン行きまくる方が楽ではあります
これは全員に思い出してほしいんですが、もう7年は前のDeepLのときほぼ同じ顛末を辿ってます。
Quote
今井翔太 / Shota Imai@えるエル
@ImAI_Eruel
ところで,予算も人員もOpenAIとは比較にならないレベルのGoogleが超本気&GPT-4のリーク情報なども加味した後出しジャンケン&GPT-4の発表から1年かけて,ようやくGPT-4と同等くらいだということを考えると,単純な力押しではなくデータの質とかが重要だという話も現実味を帯びてくる
G社はAI関係で自分がいたポジションを奪われそうになると顔真っ赤にする傾向がある気がする。Google翻訳 (DeepL)/TensorFlow v2 (PyTorch)/検索 (ChatGPT) と3回事件を見ている。前2件は最終的に相当のポジションを失っているので今回も同じ轍を踏む気がしている。
どちらも普通に誤情報を出力するので、元の回答を信じるのも「本当ですか」の結果を直接信じるのもやめましょう。というか、記述的な情報について外部の情報資源に接続していないLLMに問い合わせるのはやめましょう。
Quote
米村歩@日本一残業の少ないIT企業社長
@yonemura2006
ChatGPTは嘘をつくことがあります。僕が使う嘘を少しでも回避するコツはこれ。回答を一度もらった後にこれを言う。 「本当ですか?」 そうするとChatGPTが自らの発言を検証して正しい答えを教えてくれたりします。マジでおすすめの魔法の言葉なのでぜひ試してみてください。
100億円あれば100Bくらいの大きさのモデルの事前学習の十分な知見を得ることができるので、SBあたりが国内で10社選んで100億円ずつ投資する、とかすればいいんですが、何をトチ狂ったのかOpenAIにぶち込んでおり
「OpenAIがどういう製品を発表するかでその後の研究計画が完全に変わることがあるのです」って端的に研究分野として終わってるので、もうちょっと製品依存じゃない部分に研究の軸足置いたほうがいいでしょ…
翻訳家が聞いたら怒りそう。翻訳はある種の創造性が試される業務で、訳書は基本的には原著者の作品の派生物であると同時に翻訳家の作品でもあります。
Quote
にゆん
@N_niyu
"AI絵"に"なぜ勝手に他人の作品を学習させるのか"の話をしています。大半の、とか他のAIは、とかSiriは、自動翻訳は、とかの話はしていません。 Siriや自動翻訳と、絵などの人による『創作物』の違いがわからないのであれば、これ以上の会話は無駄だと思います。よろしくお願いします。
アカデミックな意味での専門家が一切おらんくて界隈の断絶みがある。
Quote
木内翔大@SHIFT AI代表「日本をAI先進国に」𝕏
@shota7180
【日本をAI先進国に】 遂に、国内最大級のAI活用コミュニティ『SHIFT AI』をリリースします! 日本のAI普及率を本気でぶち上げていくために、AI情報が日本一集まる場所を創ります。 AI活用情報が日本で一番集まるコミュニティ ✅AI専門家による講義 ✅業種別、テーマ別の生のAIケーススタディ講義
Show more
Image
Image
Image
Image
「LLMクソつまんねえ」と言っている学生が多くて、この大学院は健全だと思いました。
GeminiのDeep Researchを使っているわけですが、検索エンジン部分の性能で他社は絶対に追従できずGoogleの勝ち戦感が漂っている
部下を全部chatbotに置換した場合に経営者が直面する一番恐ろしい問題は「些細な問題まで含めて全ての責任が直接自分に帰属する」ようになることじゃないですかね。実行権限は"部下"に渡せても責任を渡すことが一切できないですからね。
しばらく在宅メインで仕事やって思ったが、在宅勤務100%は自分の個人的な幸福度が極めて低い。人に会いたいとかそういうのではなく、単に運動が減り、同じ場所にずっといるので気が滅入ってくる。自主的にトレーニングできるほど意識が高くないので尚更で、出勤による強制歩行イベントがちょうどよい。
これはありそう。Deep Research系のシステムに「最近の事例集めて」で大体終わる
Quote
中嶋 謙互
@ringo
Claude4で、だいぶ疲れがマシになったので、 AIに疲れている人は、優秀なAIを使うと改善するんじゃないかな。 x.com/odashi_t/statu…
これは秘密なんですが、プロンプトエンジニアに数千万円払ってゴニョゴニョしてもらうよりも、数百万円で少量の高品質アノテーションを用意して、簡単なモデルで機械学習した方が大体うまく行きます。
普通では。知識ゼロからスタートして、何か作りたくていきなりGitやコンテナ勉強することはまずなさそう
Quote
フルスタックLinuxプログラミング
@xileng4
ここ最近エンジニア志望の学生さんと話す機会が何回かあったんだけど、みんなNext.jsならPythonなりでポートフォリオ作っていて、なんなら競プロとかで精進してたり、アルゴリズムとかコンピュータサイエンスも少し勉強していますって人が多いから、プログラミングスキルはあるんだろうなっていうのは
Show more
これはかなり深刻で、世の中のコーディングLLM学習用の"オープン"データにAIZUという名前の巨大なサブセットが存在している(規約違反行為)。多くのLLMが何らかの形で影響を受けていると思われる。
Quote
Odashi
@odashi_t
Aizu Online Judge、規約違反してデータを吸い上げる行為が後を絶たないため旧版APIが廃止された。
投資業界にいた人と話していた。スタートアップが実施する施策で特に悪いシグナルとして働くものがあって、それは何かというと「自社主催のカンファレンスを開くこと」だそうだ。詳細は覚えていない(ことにしておく)が、これをやった会社は警戒して見るらしい。
国内でのLLMの用途がほぼchatbotに限定されているのだが、かなり強い違和感がある。海外の案件だと特定のタスクを雑に解かせるツールとしての使用を要求される(例えば具体的な仕様を与えた下でソースコードを生成する等)のだが、そういうものは日本の市場ではあまり視野にないようだ。
スクレイピングの防止が技術的に不可能なのは「根性のある人間が丸一日かけるとイラスト1万枚くらい選別できる」とか考えるとよく分かると思います。
プロンプトインジェクション防止策がいくら入っていても普通に質問攻めにすると設定全部教えてくれるの巻
Image
エーアイ関係のキャッチアップに疲れたと言っている人が増えてきていますが、なんで疲労を感じるほどキャッチアップに注力するのかが正直よく分からないです。不安商法の餌食になってませんか。