九原客

Have you ever wanted to train LLMs in pure C without 245MB of PyTorch and 107MB of cPython? No? Well now you can! With llm.c: github.com/karpathy/llm.c To start, implements GPT-2 training on CPU/fp32 in only ~1,000 lines of clean code. It compiles and runs instantly, and exactly

303K

九原客

@9hills

Mar 13, 2025

目前我日常使用的模型（非广告～）（日常用）： - grok.com （Grok3 真的很好） - chat.qwen.ai （Qwen2.5-Max 好用） - aistudio.google.com （不要用 gemini.google.com 会变得不幸） - yuanbao.tencent.com （对凑用用 DeepSeek R1） - Cursor +

有同学问我如何快速零基础了解大模型原理。我一般会推荐这套视频，可视化做的非常的棒，总共也就三个小时，不仅适合了解，也是很不错的入门。

youtube.com

Neural networks

Learn the basics of neural networks and backpropagation, one of the most important algorithms for the modern world.

大语言模型系统化学习只需要看斯坦福三节课就够了： CS25: 通识类的整体介绍 CS224N: NLP+深度神经网络+Transformer CS336: 大语言模型从头实现，尤其是会介绍最新的进展（比如为什么现在的LLM都用SwiGLU）如果深度了解机器学习基础，可上CS229机器学习以及CS230深度学习。

可能是迄今为止大语言模型最好的中文综述（学术向）哪怕是做大语言模型应用，也应该粗略了解，否则很多术语和背景无法理解。综述不需要太多的AI背景，应该都能看懂。 github.com/RUCAIBox/LLMSu

有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。 o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。 RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking

看论文看到哈哈大笑，用「弱智吧」标题+GPT-4回答微调后的Yi-34B模型评估结果超过了精心收集的 SFT 指令集数据，安全性评估也是第二名。弱智吧就是百度弱智吧，里面的帖子是这种画风：「既然监狱里全是罪犯，

为什么不去监狱里抓人？」论文：arxiv.org/pdf/2403.18058

PDF 转 Markdown 工具列表：

上次给同学推荐了快速了解大模型的视频，有另外的同学说他想系统的学习大语言模型。我推荐这本书，适合有一定基础，愿意深入了解大模型知识的同学。

GitHub - LLMBook-zh/LLMBook-zh.github.io: 《大语言模型》作者：赵鑫，李军毅，周昆，唐天一，文继荣

最新开源模型选择个人推荐（超过40B的建议购买API服务，其他则建议自行int4部署）。中文 RAG 选择 CommandR+ Agent/FunctionCalling 使用 Llama3-70B 或 CommandR+ 中文文案写作用Qwen-72B，语言更Local一些。特定任务的小参数微调base模型用 Llama3-8B 或 Mistral-7B 大参数微调base 模型用 Yi-34B

李宏毅讲课天赋太厉害。最近观摩他2025年的《生成式AI时代下的机器学习》（Youtube）的课程，确实讲的很棒，非常值得学习，不管是从学生角度还是授课角度。哈哈，说2014年对于机器学习而言都不叫史前时代了，是地球上只有单细胞生物。

用Gemini洗图（好孩子不要学）， Prompt：仔细分析图片，使用draw.io的XML格式完美复刻该图，确保格式正确。注意，不要在字符串中使用未转义的&、<、>等符号。洗出来的箭头基本是错乱的，简单调整下就好了。例子：

Claude 3 Opus + ChainForge，明显提升了 Prompt 编写效率。工作流： 1. 手动编写测试用例种子和原始 Prompt。 2. 让 Claude 3 根据 Prompt和种子，生成大量测试用例。 3. 在 ChainForge 上构建 workflow，尤其是测试。 4. 让 Claude 3 迭代 Prompt。 5. 不断的测试，拿到最好的效果。

推荐一些大模型相关的技术Blog，基本上每篇我都必看。 github.com/ninehills/blog

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。

踩坑，http(s)_proxy 和 HTTP(S)_PROXY 有很大的区别。

九原客

@9hills

Jan 29, 2025

随着 DeepSeek R1 的发布，如果想复刻 R1 或者在某个领域实践 RFT（Reinforcement Fine-Tuning），可以看看我整理的《DeepSeek R1 阅读清单》，会持续更新。个人的尝试也会更新上，目前受困于老家连不上A100服务器，暂停了。

DeepSeek R1 阅读清单 · Issue #121 · ninehills/blog

大语言模型（LLM）学习路径和资料汇总 20241118 最新更新，主要是更新了大量深入学习的资料。 github.com/ninehills/blog 所有视频、书籍和文章都经过严格挑选，最起码被我看一遍～

github.com

大语言模型（LLM）学习路径和资料汇总 · Issue #97 · ninehills/blog

更新时间：20241018 0x00 学习路径本文分为三个章节，各章节的学习目标如下。入门篇：了解大语言模型的基础知识和常见术语。学会使用编程语言访问 OpenAI API 等常见大语言模型接口。面向非专业背景的大模型普及知识。应用篇：可以在本地环境搭建开源模型的推理环境。大语言模型应用开发框架（如 LangChain、Dify等）。 Prompt 工程、 RAG、Agent...

给个建议，首先先不要学任何llm调用以外的库。 1. 从这里学习workflow agent deeplearning.ai/courses/agenti 学习时可以顺手将课程里的workflow用dify复刻下，把dify workflow 模式学了。一定要知道如何手搓工作流。 2. 跟着文档示例了解下dify 的agent 模式，主要是学 openai agents

Quote

Miko su

@Mikotingting

Oct 9, 2025

Replying to @9hills

我是新手，请教，如果我向学习如何搭建agent, 有哪些书籍和教程推荐？无敌感谢

draw.io 是最适合由Sonnet 生成的流程图、架构图格式。比svg增加了可编辑，比mermaid、plantuml 漂亮。

大模型现在被某些人吹为新一轮的技术革命。但是对行业带来的技术革命和生产力的提升到底是什么？问答？写作？这种其实都不是企业的核心业务流。做了一年多大模型落地，是越来越困惑了。

使用 RepoPrompt + Grok3 Thinking 模式绘制的 deep-research-web-ui 项目的原理图。全程只使用了 2个 Prompt + 30s。 1. 根据代码生成Deep Research的原理描述。 2. 根据如上原理，生成详细、专业、漂亮的流程图，使用 plantuml 语法。我认为 Grok3 的优点： 1. 和 DeepSeek R1

ChatGPT 目前各类应用都非常内卷。最近用 Immersive Translate Chrome 插件替换了 OpenAI Translator 插件。前者的优点是提供沉浸式的双语对照翻译，能够较大的提高阅读效率。同时还提供epub、pdf等翻译功能。插件地址：chrome.google.com/webstore/detai

搞了一个 Colab 上运行的 ChatGLM OpenAI API。这样就可以利用任意 OpenAI 客户端（如 OpenCat）来调用 ChatGLM 啦（目前 API 用的 ngrok 的临时 URL）后续会开个 Repo，支持开源 Embeddings 、Cloudflare Tunnel 以及微调模型。 gist.github.com/ninehills/f675

RAG 综述，建议每个做大模型应用的都读下。非常不错的总结。

arxiv.org

Retrieval-Augmented Generation for Large Language Models: A Survey

Large Language Models (LLMs) showcase impressive capabilities but encounter challenges like hallucination, outdated knowledge, and non-transparent, untraceable reasoning processes....

把Github Copilot 订阅停了，尝试了三个免费的替代： Codeium：不能更换模型，但可以免费无限使用。 Tabnine：开源，支持本地模型。 Continue.dev：开源，支持本地和API模型。但是Tab补全推荐使用sft后的本地模型。目前以Codeium 和Continue配合，前者用于tab补全，后者替代Copilot Chat

continue.dev

Quality control for your software factory. | Continue

Source-controlled AI checks on every pull request. Standards as checks, enforced by AI, decided by humans.

来自一亩三分地的爆料。

重温

对学习的建议：从项目开始，自顶向下逐渐深入，按需学习。比如学大模型，不要从机器学习数学出发学习，而是先多使用，用的多了想封个app，调prompt 调多了就想了解下原理。再比如想通过训练提升效果。先用llama-factory 跑一个，再学习什么是lr，epoch，lora etc.

哈哈，OpenAI 技术人员虽然承认了DeepSeek 独立发现了o1的核心方法，但是语气阴阳怪气的。现在被各路大佬疯狂嘲讽，比如这位STaR论文的作者。STaR 论文是2022年的，算推理模型的早期重要论文之一。

Quote

noahdgoodman

@noahdgoodman

Jan 29, 2025

Congrats to OAI on producing a reasoning model! Their opaque tweets demonstrate that they’ve (independently) found some of the core ideas that we did on our way to STaR. x.com/markchen90/sta…

Huggingface 有三个课程值得学习： mcp-course、agents-course、smol-course 最新的是 smol-course，代码级学习小模型的训练、数据集合成，课程都有视频、代码和练习题。量力而行～

30K