九原客
九原客
5,556 posts
九原客
@9hills
喜欢一切美好的事物。目前聚焦在大模型领域。
九原客’s posts
这个大神也是神人。年薪上千万刀的工作也不做,就出各种LLM学习的项目和视频,质量也是天花板。
如下视频也是我见过最好的大模型介绍,不亚于一篇最好的大模型综述。
youtu.be/bZQun8Y4L2A?si
Quote
Andrej Karpathy
@karpathy
Have you ever wanted to train LLMs in pure C without 245MB of PyTorch and 107MB of cPython? No? Well now you can! With llm.c:
github.com/karpathy/llm.c
To start, implements GPT-2 training on CPU/fp32 in only ~1,000 lines of clean code. It compiles and runs instantly, and exactly
目前我日常使用的模型(非广告~)
(日常用):
- grok.com (Grok3 真的很好)
- chat.qwen.ai (Qwen2.5-Max 好用)
- aistudio.google.com (不要用 gemini.google.com 会变得不幸)
- yuanbao.tencent.com (对凑用用 DeepSeek R1)
- Cursor +
有同学问我如何快速零基础了解大模型原理。
我一般会推荐这套视频,可视化做的非常的棒,总共也就三个小时,不仅适合了解,也是很不错的入门。
可能是迄今为止大语言模型最好的中文综述(学术向)
哪怕是做大语言模型应用,也应该粗略了解,否则很多术语和背景无法理解。
综述不需要太多的AI背景,应该都能看懂。
github.com/RUCAIBox/LLMSu
看论文看到哈哈大笑,用「弱智吧」标题+GPT-4回答微调后的Yi-34B模型评估结果超过了精心收集的 SFT 指令集数据,安全性评估也是第二名。
弱智吧就是百度弱智吧,里面的帖子是这种画风:「既然监狱里全是罪犯,
为什么不去监狱里抓人?」
论文:arxiv.org/pdf/2403.18058
上次给同学推荐了快速了解大模型的视频,有另外的同学说他想系统的学习大语言模型。
我推荐这本书,适合有一定基础,愿意深入了解大模型知识的同学。
随着 DeepSeek R1 的发布,如果想复刻 R1 或者在某个领域实践 RFT(Reinforcement Fine-Tuning),可以看看我整理的《DeepSeek R1 阅读清单》,会持续更新。
个人的尝试也会更新上,目前受困于老家连不上A100服务器,暂停了。
大语言模型(LLM)学习路径和资料汇总 20241118 最新更新,主要是更新了大量深入学习的资料。
github.com/ninehills/blog
所有视频、书籍和文章都经过严格挑选,最起码被我看一遍~
给个建议,首先先不要学任何llm调用以外的库。
1. 从这里学习workflow agent deeplearning.ai/courses/agenti 学习时可以顺手将课程里的workflow用dify复刻下,把dify workflow 模式学了。一定要知道如何手搓工作流。
2. 跟着文档示例了解下dify 的agent 模式,主要是学 openai agents
Quote
Miko su
@Mikotingting
Replying to @9hills
我是新手,请教,如果我向学习如何搭建agent, 有哪些书籍和教程推荐?无敌感谢
ChatGPT 目前各类应用都非常内卷。最近用 Immersive Translate Chrome 插件替换了 OpenAI Translator 插件。
前者的优点是提供沉浸式的双语对照翻译,能够较大的提高阅读效率。同时还提供epub、pdf等翻译功能。
插件地址:chrome.google.com/webstore/detai
搞了一个 Colab 上运行的 ChatGLM OpenAI API。这样就可以利用任意 OpenAI 客户端(如 OpenCat)来调用 ChatGLM 啦(目前 API 用的 ngrok 的临时 URL)
后续会开个 Repo,支持开源 Embeddings 、Cloudflare Tunnel 以及微调模型。
gist.github.com/ninehills/f675
RAG 综述,建议每个做大模型应用的都读下。
非常不错的总结。
把Github Copilot 订阅停了,尝试了三个免费的替代:
Codeium:不能更换模型,但可以免费无限使用。
Tabnine:开源,支持本地模型。
Continue.dev:开源,支持本地和API模型。但是Tab补全推荐使用sft后的本地模型。
目前以Codeium 和Continue配合,前者用于tab补全,后者替代Copilot Chat
哈哈,OpenAI 技术人员虽然承认了DeepSeek 独立发现了o1的核心方法,但是语气阴阳怪气的。
现在被各路大佬疯狂嘲讽,比如这位STaR论文的作者。STaR 论文是2022年的,算推理模型的早期重要论文之一。
Quote
noahdgoodman
@noahdgoodman
Congrats to OAI on producing a reasoning model! Their opaque tweets demonstrate that they’ve (independently) found some of the core ideas that we did on our way to STaR. x.com/markchen90/sta…