Pinned
テッツォ@Data Scientist
テッツォ@Data Scientist
27K posts
テッツォ@Data Scientist
@tetsuro731
企業で機械学習とか統計とかやってる人。個人事業主で分析系のお仕事やAIベンチャーのアドバイザーなども。物理学博士。身長と体重がベジータと同じ。Kaggle Competition Expert
3
1 英語も勉強中。
kaggle.com/tetsuro731Joined December 2010
テッツォ@Data Scientist’s posts
DECO27の教養よりも、谷川俊太郎が「それくらい知ってなきゃいけない」と説教したり老害ムーブを一切出さずにひたすら肯定、感心しているのが凄いと思う。
多分これができる大人って多くないんじゃないかな。 x.com/_Under_the_des
You’re unable to view this Post because this account owner limits who can view their Posts. Learn more
オムツを履いていない状態で泣いた場合、参照すべきオムツがnullになってエラーになるバグがある。
これは非常に面白い思考実験で、例えばAという名字の総数は男の場合は結婚で+1、女の場合は-1される。つまりこれは一次元のランダムウォークと呼ばれる動きになる。ただし、一度ゼロになった名字は復活しないため、もし人類が今後無限に存在すれば名字は”ただ一つに”収束するはずだ。
Quote
おおきなエル 





@ellnore_pad_267
ふと思ったんだけどさ。
「名字」って基本的に、新規に発生することって無いよな?
ってことはだ、基本的に結婚して片方がもう片方の姓を名乗ることになるので、
2人につき片方は消滅する訳じゃん?
子無しなら結局は消滅する訳じゃん?
単身の場合も自然消滅する訳じゃん?
いやオムツのnull pointer exceptionを実装で回避したとしても、例えば全裸でうんちをぶちまけてた場合に「オムツが汚れていない」とみなして抱っこしたりタケモトピアノのCMを聞かせ続けてしまうといった行動を取るリスクがあるので、この問題はビジネスの抽象度でも解決しない。
Quote
うえぞう@うな技研代表
@uezochan
この指摘は実装時の関心事であり、フローをビジネスレベルの抽象度と捉えた時、オムツを履いていない場合は汚れたオムツが存在しないのであるから「いいえ」に分岐することで問題ない。実装はomutsu.isDirtyではなく赤ちゃん.wearsDirtyOmutsu()での判定を想定 x.com/tetsuro731/sta…
「え、社員全員フルリモートでいいのか!?」
「あぁ、日本国内ならどこでもいいぞ。遠慮するな。」
「地方移住!空気がうめ!うめっ!」
…
「これよりオフィスへの出社を開始する!」
「いやしく遠くへ引越した奴ほど苦痛は続く!」
「まさか本当に退職するとはな」
Replying to
なお肝心のキッズ向けYouTubeはいろいろ触りすぎて使えなくなった模様。
2×8ができなくて詰んでた。
ティンダは、地理的に分散されたヒューマンリレーションシステムにおいて、双方向合意型セッションを迅速に構築するための、フルマネージドでスケーラブルな統合サービスです。ユーザは最小限のジェスチャ入力(スワイプアクション)により高可用性のマッチングイベントをオンデマンドで生成できます。
フルリモート辞めますってなること自体はよくあるしリスク理解しとけってのは同意なんだけど、今回の件はフルリモートを積極的にアピールして人を集めてたり「〇〇さんは離島から働いてます!」みたいに広報コンテンツとして利用してた節もあるので、それを突然切り捨てられて憤る気持ちは分かるかなぁ
社内が相当ざわついてるという噂…
フルリモート前提で地方移住して家買っちゃった人とかどうなるんだろ。
Quote
サカモト@エンジニアキャリア論
@sakamoto_582
LINEヤフーフルリモート終了!!また一つフルリモ企業が減ってしまった
> カンパニー部門に所属する社員は原則週1回の出社、カンパニー部門以外(開発部門、コーポレート部門等)に所属する社員は原則月1回の出社
lycorp.co.jp/ja/news/announ
Replying to
音楽/作詞という「共通のフィールドで」「自分よりはるかに年下が」「自分が当たり前に知っている教養のなさを晒して」きたときに説教せずにいられるだろうか?
それでも相手の言葉に耳を傾けて素直に凄いと言えるだろうか?
以前「弊社から内定もらったけど蹴った」という内容で有料の情報商材販売してる人がいて、かなり詳細に面接の内容とかチーム構成とか暴露されてた上明らかに間違った内容も多くて「うーん」って思ってたんだけど、今日上長に話したらそもそも内定出してないって言っててホラーだった。
会社に「論文書いたんですけど投稿する費用は経費で落ちますか?」って聞いたら「論文投稿するのにお金がかかるんですか?」って言われて泣いちゃった。
学会参加にもお金かかるゾ
Quote
すてふ
@sgt_stephen3rd
僕は非アカデミアの人に「論文に投稿するも論文を読むも学者がお金を払わないといけない。掲載されても原稿料/印税の類はないし、査読に給料は出ない。」って説明して信じてもらえる自信は無いし、正直なんでこのシステムが成立してるのか分かってない。
This Post is from a suspended account. Learn more
ぼく「…ということで、今回の結果から差があるとは言えません」
偉い人「なるほど、差がないってことね」
ぼく「いえ、厳密にはそうでなく…」
みたいの頻発する。
仮説検定は人類には早い。
Quote
TJO
@TJO_datasci
t検定を代表とする一般的な統計的仮説検定(帰無仮説有意差検定)は「差がある」or「差があるとは言えない」のどちらかの結論のみを返すもので、「差がない」を言うためのものではない。「差がない」という結論を得たいなら、非劣性(等価)検定を使う必要がある
tjo.hatenablog.com/entry/2021/06/
4oの「人間に寄り添った回答」みたいなやつ、そんなに興味なかったんだけど、gpt5が明らかに間違った回答しまくった挙句に
「あー混乱させちゃいましたね」
「正しくはこうです。これでようやくスッキリしました?」
みたいに終始煽り散らかしてくるので、ちょっと4oロスの気持ちわかるかも。
Replying to
単なるオムツorientedな考え方だと、「お風呂でうんちをぶち撒け泣いた」場合や「オムツ替え中でうんちまみれ、一時的にオムツを履いてない」などの様々な例外に対応できない。そこでまず処理すべき汚物があるか?に注目するオムツ指向→汚物指向への転換を提唱したい。
Replying to
他にも実装によっては汚れたオムツを外した瞬間に「オムツを履いていない→オムツが汚れていない」状態へシフトしおむつ替えを中断し初手に戻る無限ループが生じ、外部の介入がない限り無限に高速でオムツを外して付けてを繰り返す危険性がある。
データサイエンティストって企業によって微妙に定義が違うんだけど、大まかに4つの「型」があるので、どのタイプを目指すのか意識しておくのが大事。
Replying to
そもそも最初の問いで「オムツ」にフォーカスすること自体が問題であるように感じる。「顧客が欲しいのはドリルではなく穴」であるように、今回のイシューであり本質はオムツそのものというより「うんちやおしっこなどの汚物が処理すべきものとして滞留していること」だと捉えることができる。
Replying to
続きの議論です
Quote
テッツォ@Data Scientist
@tetsuro731
いやオムツのnull pointer exceptionを実装で回避したとしても、例えば全裸でうんちをぶちまけてた場合に「オムツが汚れていない」とみなして抱っこしたりタケモトピアノのCMを聞かせ続けてしまうといった行動を取るリスクがあるので、この問題はビジネスの抽象度でも解決しない。 x.com/uezochan/statu…
今年のCAによるタップルのレコメンド論文。
マッチングアプリは双方向の推薦となる点がユニーク。
マッチング数を最大化しようとすると人気のある一部会員に露出が集中してしまうが、全会員の公平性を確保するのも重要。そのトレードオフを解消するためにナッシュ社会的厚生関数を導入したらしい。
自分も同じ経験したことあるけど、アカデミアの場合はきちんと再現性のある結果を定量的に出して論文にする必要があるけど、ビジネスの場合は有意差頑張って出すよりもさくっと次の実験回したり要点偉い人に報告して次のビジネス判断に繋げる方が良い場合があるんだよね。ゴールが違う。
Quote
RIE.
@raccount0906
これ結構大発見だったんだけど、会社で「数字を出せ」と言われる時は厳密に統計学的な有意差を求められているわけではなく、定性的に作った仮説がある程度間違っていなさそうかどうかのざっくりした根拠が求められているだけらしかった
アカデミアに染まりすぎててウケた
スタバのデータサイエンティスト募集中です。
募集要項出たので貼っておきます。
楽しい福利厚生:コーヒー豆無料でもらえる、オフィスでコーヒー飲み放題など(基本リモート)
Python, SQL等ができる+ビジネスレベルの英語力が必要です。
興味のある方はぜひご連絡ください!
starbucks-newgraduate.snar.jp/jobboard/detai
これには理由があって、データサイエンティストは職業柄「自分の書いたコードを誰かが長期保守運用する」みたいなことが少なく、リファクタするくらいなら実験回して汚いコードでもいいから綺麗なプロットやら分析結果やら出す方が優先されるから。逆に少しでもエンジニアリングできると価値が上がる。
Quote
J
@j_kun_ml
データサイエンティストの多くが、コードぐちゃぐちゃです。笑
・Jupyter Notebookしか使わない
・class使わずfunctionしか使わない
・モジュール化せずにfunctionをコピペ
・APIキーをnotebookにベタ打ち
・GitHub、Dockerを使わない
Show moreReplying to
自分で育てる系の野菜栽培キットみたいなやつ実はあんまりコスパ良くないけど美味しく感じちゃうもんな。
Netflix、検索とレコメンドの両方をsingle modelで実現して両方の精度を向上させた、という結構ものすごいことを言っている。
Replying to
バズったので宣伝します!
赤ちゃんが読んでる論文はこれです。
レコメンド精度向上にTransformerと自己教師学習を取り入れることでLightGBMをはじめGBDTを越える性能が出たという去年トロント大学から出たrecsys challangeで優勝した論文です。
面白いのでみんな読んでみて!
cs.toronto.edu/~mvolkovs/Recs
情報系の学生さんとかと話すと
「ランダムフォレスト習いました」
「決定木習いました」
「ロジスティック回帰習いました」
「ニューラルネット習いました」
「勾配ブースティング…?」
みたいな感じなので、実務で何がよく使われるか、みたいな知識は意外と知られてないのかもしれない。
Quote
まますたん
@mamas16k
結局のところ必要なのは
・線形回帰
・勾配ブースティング
・Deep Learning
・LLM API / VLM API
の4つで、他の中途半端なモデルの知識って大して要らないんだよな。ただ必要になった場合はすぐキャッチアップ出来るように数学知識(工学系の学部レベルでOK)はあったほうが良いかも。 x.com/mamas16k/statu…
「教育教育教育教育教育教育教育教育教育教育教育教育教育教育教育教育死刑死刑死刑死刑死刑死刑死刑死刑死刑死刑死刑教育教育教育教育教育教育教育教育教育教育教育教育教育教育教育」は漢字3バイト*86文字で258バイトですが、ランレングス符号化を使えば「教育18死刑11教育14」と16%まで圧縮可能です
今までに出会った東大卒の人、自分からは言わない人が多かったな。聞いたら答えるけど、「東京の大学です」って誤魔化されることが多かった。
なんかそういうトレーニングでもしてるのか…?
Quote
いぐぞー
旅するプログラマー
@igz0
「一応、自分は東京大学を出てて〜」と言っている同僚に「え? 東大を出ていて自分と同じポジションにいるんですか!?
」と言ったらめちゃくちゃ嫌われた
LY社の人が一気に転職活動開始してて一種のお祭り感あるな。
おそらく転職エージェントはこれでもかとメッセージ送ってるだろうし、自分の元にもちょいちょい連絡が来ている。
クックパッドのレイオフの時ほど深刻さはないだろうけど、なにしろ一万人規模のグループなので結構な数が市場に出回るのでは
裕典くんさぁ
さっき「特定のデータセットとパラメータでしか再現しない可能性があるため追加の検証が求められる」って言ってたじゃん?
あれ「SOTAです」って言い切っちゃっていいから。
そのほうが女の子喜ぶから。
スタバのデータサイエンティスト、また新しく募集してるので興味のある方はぜひ~
>データサイエンスにおける2年以上の関連業務経験
なのでジュニアレベルの人も応募しやすいと思います。
starbucks-newgraduate.snar.jp/jobboard/detai
Replying to
ただし、名字が変わるタイミングは基本一生に一度であるためこのランダムウォークは人類の体感だと非常にゆっくりになる。
ではもしネズミに名字を与えて長い時間繁殖を観察し続けたらどうだろう?
一つの名字に収束するのが見れるかも。あるいは簡単な数値シミュレーションでも見れるだろうね。
これは割と真理な気がしていて、kagglerの中では当たり前な「leakに気をつけてcv切ってlgbmにぶちこむ」ができてない会社やサービスは意外と多いので、それをやるだけでビジネス的な価値がある。
逆にコスト度外視の複雑なアンサンブルとか細かすぎるチューニングが必要なサービスはほとんどない印象。
Quote
charm
@charmq00
kagglerに機械学習でナントカシテェ!って頼むと謎のaugmentationとハイパラチューニングでaucを0.01上げるなんてことはせず、leakに気をつけてcv切ってlgbmにぶちこんだらこんなもんやで!くらいの答えが返ってきそう