しゅんぴー(Shun_PI)

4,358 posts
Opens profile photo
しゅんぴー(Shun_PI)
@Shun___PI
AI Engineer / Kaggle Grandmaster(🥇5🥈8🥉3) / AtCoder黄(2300 max.橙2525) / AtCoder Heuristic赤(3081)
東京 江東区kaggle.com/shunrcnJoined October 2019

しゅんぴー(Shun_PI)’s posts

競プロerが使えないも東大生が使えないも大体同じ理由で生まれる言説だと思う その集団の中で癖や難がある人が就活で苦しみ、格の落ちる会社に入った結果ミスマッチになるみたいな だからそういう会社にいる人からすると競プロerや東大生の知っているサンプルの全てが使えない人になってしまう
それにしても40回以上参加してついに初優勝のチャンス!って時になぜそのサービスを運営している社長に阻止されねばならないのか 冷静に考えるとなんかおかしくないか????
ymatsuさんの記事の「精度が低いが高速な方法で候補を絞ってから、精度が高い方法でランク付けをする手法は、一般的に有効な考え方と言えるでしょう。」に完全に同意。 KaggleやML実務やってれば当たり前の思考なんだけど意外とのこの思考できない人が多いってのは今回のAHCで思った。
私は競プロ知るまでひどい人生だったけど知ったことで救われたタイプだなあ マジで大学時代友達1人も存在しなかったしなんなら今でも連絡先知ってる知人は親と妻くらい 自分の才能に気づくことが如何に人生を変えるかという意味ではかなり実感を得ているのでいつか何か記事を書きたいな
USPTOコンペ2位でした! 優勝を確信するくらいにはスコアを伸ばしていたはずなのですが(手元で0.9993くらい)、最終提出1位チームに一気に抜かれてしまいました… それでも初のソロprize+GM達成!
Image
よっしゃ!!!!初solo gold!!!!!!! 焼きなましで波形のパラメータを推定しました!(これがほぼ全て) 機械学習はしていません。
Image
特にKagglerだと機械学習解法しか興味ない人多そうだけど、実務においても機械学習が適用困難でルールベースや最適化手法を使うケースもあるし、逆もまた然りで、両方できた方が絶対に良いと思うんだよね
AHC040 プレテスト1位解法です 前半戦ではほとんど辺の長さの推定ができませんでしたが、 金曜日頃にクエリの結果が線形回帰と同じ形であり正規方程式で解けることに気づいたことが最大のブレイクスルーでした 多分writerも正規方程式を想定して作問していそうな感じです
Image
Image
Image
Image
機械学習がうまくいかない理由は、「trainデータが少ない」「train/testギャップが大きい」「signalが薄く広がっていてCNNでは捉えづらい」の3つだと思っている。 一方で「signalが綺麗な正弦波」であることから焼きなましの探索空間は大幅に削減出来て、効果的にsignalっぽい波形を見つけられる。
Image
Image
AHC042 468800くらいで多分優勝! 操作列を焼きなまし 操作は通常の操作に加えて「その操作をし続けて排出できる鬼を全て排出する」も入れる 近傍は「挿入」「削除(末尾削除の確率高め)」「変更」「差分10操作以内でswap」「方向を逆にする」の5種類
GIF
TPUコンペについて社内勉強会で話したので、1枚だけ公開 私がソロ金を取った重力波コンペとTPUコンペはいずれも図の真ん中のタスクに該当し、法則を特徴量として作っていくことで機械学習モデリングの工夫をあまりせずに高順位が取れるので、競プロerがKaggleに参加するならお勧め、という話をした
Image
自分より上の立場の人にアルゴリズムや競プロを知ってる人がいない場合、チャレンジングなタスクは永遠に降ってこないし評価軸がチーム開発能力やらコミュニケーション能力やらに偏るのでそういう職場に行くならそういう覚悟はする必要があるよね(そういう職場経験済みの人並感)
赤コーダーが2人インフラに追放される会社なんて日本に高々1つしかなさそうだし、追放された本人からすれば容易にこの記事書いた人物とか特定できそうだなあ 嘘でなければの話だけど
一応Public1位になった方法だけ書き残しておきます 今回のMoAのデータセットは極端にinbalancedで、Trainに206クラス中50クラス近くはpositiveのデータが(drug_idベースで)1,2件しかないという状況でした。 ここで、仮にPublicとTrainのpositiveの割合が同じなら、データ数はTrain:Public≒6:1なので、
magicを簡単に解説すると、普通のRerankの機械学習では各session毎に1個正解として学習するんですが、 今回は全く同じシーケンスだけど違う正解となるデータがたくさんあるので、それらをまとめることで「同じシーケンスと候補宿なのに0/1が違う」矛盾したデータを除去できスコアが結構上がります
AHC010 7位 乱択DFSで解を作る DFSで二択を迫られたときはスタート地点から遠ざかる方を優先的に選ぶ 一定回数遷移してもスタート地点につけなければ打ち切り 本当はこれを初期解にして逐次改善をしたかった(上位は多分それができている…)
Image
#AHC023 暫定4位 1~99ターン目に収穫or空けておく領域を焼きなまし 中盤まで通路と区分けをあらかじめ決めてから貪欲に植える方針で41Mあたりで伸び悩みましたが、頑張れば実は焼けるということに気づいた瞬間別ゲーが始まりました 画像はseed=0(857675点)
GIF
競プロerがX上で高圧的な人が多いという話、「学生か社会人か」の特徴量の方がはるかに影響与えてるだろとしかとしか思えない(業プロは定義上100%社会人なのでずるい) 業プロをしてる競プロerと業プロをしてる非競プロerで比較するのがフェアではないでしょうか
以前からちょっとずつ勉強してた統計準1級、9割も取れてしまい我ながらびっくり 基礎全部すっ飛ばして独学Kaggle殴り込みでMLやってる人間なので基礎固めとして良かった
Image