DeepSeek R1爆火后,该如何理解 LLM 中的强化学习算法?

讨论下我们到底该如何理解 LLM 中所涉及到的 RL 算法。

DeepSeek R1爆火后,该如何理解 LLM 中的强化学习算法?

讨论下我们到底该如何理解 LLM 中所涉及到的 RL 算法。
阅读原文

微信 + DeepSeek-R1:这是第一手实测报告,有料!

微信 + DeepSeek-R1,腾讯元宝的“微信”版,还是挺香的。
阅读原文

越挫越勇的大前端 | 直播预告

怎么,现在还有前端人关心「技术」吗?正在直播? 一起探讨 AI 时代下前端的生存法则。
阅读原文

KTransformers

KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目,能优化大语言模型的推理性能,降低硬件门槛。KTransformers基于GPU/CPU异构计算策略,用...
阅读原文

DragAnything

DragAnything 是快手联合浙江大学和新加坡国立大学 Show Lab推出的,基于实体表示的可控视频生成方法,基于简单的轨迹输入实现对视频中任意物体的精确运动控...
阅读原文

好伴AI

好伴AI是杭州智诊科技推出的医疗健康智能助手应用,专注于为用户提供专业、便捷的健康咨询和医疗建议。基于全科医学通用大语言模型WiseDiag-Z1,能24小时在线...
阅读原文

GENERator

GENERator是阿里云飞天实验室 AI for Science 团队推出的生成式基因组基础模型,专注于 DNA 序列的设计和生成。模型基于 Transformer 解码器架构,具有 98k ...
阅读原文

Perplexity Deep Research

Perplexity Deep Research 是 AI 搜索引擎 Perplexity 推出的免费深度研究工具,通过强大的 AI 技术为用户提供全面且高效的研究报告。能执行数十次搜索,阅读...
阅读原文

香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈

百万真机数据集的终极目标是打造硬件加系统的 AI 次方模式,构建真正智能的端到端具身系统。
阅读原文