九原客

5,556 posts
Opens profile photo
九原客
@9hills
喜欢一切美好的事物。目前聚焦在大模型领域。
北京, 中华人民共和国ninehills.tech

九原客’s posts

这个大神也是神人。年薪上千万刀的工作也不做,就出各种LLM学习的项目和视频,质量也是天花板。 如下视频也是我见过最好的大模型介绍,不亚于一篇最好的大模型综述。 youtu.be/bZQun8Y4L2A?si
Quote
Andrej Karpathy
@karpathy
Have you ever wanted to train LLMs in pure C without 245MB of PyTorch and 107MB of cPython? No? Well now you can! With llm.c: github.com/karpathy/llm.c To start, implements GPT-2 training on CPU/fp32 in only ~1,000 lines of clean code. It compiles and runs instantly, and exactly
大语言模型系统化学习只需要看斯坦福三节课就够了: CS25: 通识类的整体介绍 CS224N: NLP+深度神经网络+Transformer CS336: 大语言模型从头实现,尤其是会介绍最新的进展(比如为什么现在的LLM都用SwiGLU) 如果深度了解机器学习基础,可上CS229机器学习以及CS230深度学习。
有人说DeepSeek R1 的 RL 范式也没啥创新,其实点不在这里。 o1出来后纷纷开始复刻,OpenAI 也不说怎么实现的,也不展示COT数据。所以说蒸馏o1纯属扯淡,OpenAI 防的死死的。 RL 论文上百篇方法几十种,最后 DeepSeek 肯定不是第一家试出来的(比如Google 的 gemini flash 2.0 thinking
看论文看到哈哈大笑,用「弱智吧」标题+GPT-4回答微调后的Yi-34B模型评估结果超过了精心收集的 SFT 指令集数据,安全性评估也是第二名。 弱智吧就是百度弱智吧,里面的帖子是这种画风:「既然监狱里全是罪犯,👮♀️为什么不去监狱里抓人?」 论文:arxiv.org/pdf/2403.18058
Image
Image
最新开源模型选择个人推荐(超过40B的建议购买API服务,其他则建议自行int4部署)。 中文 RAG 选择 CommandR+ Agent/FunctionCalling 使用 Llama3-70B 或 CommandR+ 中文文案写作用Qwen-72B,语言更Local一些。 特定任务的小参数微调base模型用 Llama3-8B 或 Mistral-7B 大参数微调base 模型用 Yi-34B
李宏毅讲课天赋太厉害。 最近观摩他2025年的《生成式AI时代下的机器学习》(Youtube)的课程,确实讲的很棒,非常值得学习,不管是从学生角度还是授课角度。 哈哈,说2014年对于机器学习而言都不叫史前时代了,是地球上只有单细胞生物。
Image
用Gemini洗图(好孩子不要学), Prompt:仔细分析图片,使用draw.io的XML格式完美复刻该图,确保格式正确。注意,不要在字符串中使用未转义的&、<、>等符号。 洗出来的箭头基本是错乱的,简单调整下就好了。 例子:
Image
Claude 3 Opus + ChainForge,明显提升了 Prompt 编写效率。工作流: 1. 手动编写测试用例种子和原始 Prompt。 2. 让 Claude 3 根据 Prompt和种子,生成大量测试用例。 3. 在 ChainForge 上构建 workflow,尤其是测试。 4. 让 Claude 3 迭代 Prompt。 5. 不断的测试,拿到最好的效果。
Image
Image
Image
Image
DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。
给个建议,首先先不要学任何llm调用以外的库。 1. 从这里学习workflow agent deeplearning.ai/courses/agenti 学习时可以顺手将课程里的workflow用dify复刻下,把dify workflow 模式学了。一定要知道如何手搓工作流。 2. 跟着文档示例了解下dify 的agent 模式,主要是学 openai agents
Quote
Miko su
@Mikotingting
Replying to @9hills
我是新手,请教,如果我向学习如何搭建agent, 有哪些书籍和教程推荐?无敌感谢
大模型现在被某些人吹为新一轮的技术革命。 但是对行业带来的技术革命和生产力的提升到底是什么? 问答?写作?这种其实都不是企业的核心业务流。 做了一年多大模型落地,是越来越困惑了。
使用 RepoPrompt + Grok3 Thinking 模式绘制的 deep-research-web-ui 项目的原理图。全程只使用了 2个 Prompt + 30s。 1. 根据代码生成Deep Research的原理描述。 2. 根据如上原理,生成详细、专业、漂亮的流程图,使用 plantuml 语法。 我认为 Grok3 的优点: 1. 和 DeepSeek R1
Image
把Github Copilot 订阅停了,尝试了三个免费的替代: Codeium:不能更换模型,但可以免费无限使用。 Tabnine:开源,支持本地模型。 Continue.dev:开源,支持本地和API模型。但是Tab补全推荐使用sft后的本地模型。 目前以Codeium 和Continue配合,前者用于tab补全,后者替代Copilot Chat
重温 对学习的建议:从项目开始,自顶向下逐渐深入,按需学习。 比如学大模型,不要从机器学习数学出发学习,而是先多使用,用的多了想封个app,调prompt 调多了就想了解下原理。 再比如想通过训练提升效果。先用llama-factory 跑一个,再学习什么是lr,epoch,lora etc.
哈哈,OpenAI 技术人员虽然承认了DeepSeek 独立发现了o1的核心方法,但是语气阴阳怪气的。 现在被各路大佬疯狂嘲讽,比如这位STaR论文的作者。STaR 论文是2022年的,算推理模型的早期重要论文之一。
Quote
noahdgoodman
@noahdgoodman
Congrats to OAI on producing a reasoning model! Their opaque tweets demonstrate that they’ve (independently) found some of the core ideas that we did on our way to STaR. x.com/markchen90/sta…
Huggingface 有三个课程值得学习: mcp-course、agents-course、smol-course 最新的是 smol-course,代码级学习小模型的训练、数据集合成,课程都有视频、代码和练习题。 量力而行~
Image