ERNIE-4.5-21B-A3B-Thinking

ERNIE-4.5-21B-A3B-Thinking 是百度推出的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每个token激活30亿参数,支持128K的长...
阅读原文

FunAudio-ASR

FunAudio-ASR 是阿里巴巴达摩院推出的端到端语音识别大模型,专为解决企业落地中的关键问题设计。通过创新的 Context 增强模块,有效优化了“幻觉”和“串语种”...
阅读原文

xiaohongshu-mcp

xiaohongshu-mcp是基于 Model Context Protocol (MCP) 协议开发的开源工具,帮助用户实现小红书平台的自动化操作。支持多种功能,包括登录小红书、发布图文、...
阅读原文

用即梦4.0直出AI长视频的邪修攻略!我在seko薅商汤羊毛

即梦4.0 免费!Nano 🍌免费!Veo3 五折!真的假的,真让我抢到AI界的鸡蛋了?之前也测过Seko,当时就可以直接完成剧情策划、生成分镜图片和视频、添加配音和背...
阅读原文

别再花钱去拍形象照了,教你一键制作大师级人物摄影照(含提示词和操作方法)

点击蓝字「AI奇妙夜」和「星标」别怕,也别焦虑,我们一起走进AI的世界01引言前两天给大家介绍了如何制作证件照的方法和技巧,还是有挺多朋友感兴趣的。也期...
阅读原文

YouStory

YouStory是智能AI故事书平台,基于人工智能技术为家庭创造独特的成长故事。用户可以通过上传孩子的照片、宠物、绘画、涂鸦或喜欢的玩具来让它们成为故事的主...
阅读原文

ZipVoice

ZipVoice 是小米集团 AI 实验室发布的高效零样本语音合成(TTS)模型。模型基于 Flow Matching 架构,包含 ZipVoice(单说话人)和 ZipVoice-Dialog(对话语...
阅读原文

PP-OCRv5

PP-OCRv5 是百度推出的高效、精准的文字识别模型。模型基于两阶段处理流程,专门用在快速、准确地检测和识别图像中的文字。
阅读原文

Stable Audio 2.5

Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,专为企业级声音制作设计。模型具备快速生成(三分钟音频仅需两秒)、动态音乐创作和音频修复功能。
阅读原文

Live Interpreter API

Live Interpreter API 是 Azure 语音翻译的新功能,能实现实时的多语言语音翻译。无需用户手动设置输入语言, Live Interpreter API 能自动连续识别正在使用...
阅读原文

有了这个AI排版作图工具,我连夜抛弃稿定和可画

前段时间主包去实习,导师随口说起,最近在用一个AI工具,可以一键生成海报。我当时心想:不就是 lovart 那类的AI生图软件吗?还挺不屑。结果没过两天,我用 ...
阅读原文

veCLI

veCLI 是字节跳动火山引擎推出的命令行 AI 工具,提升开发效率。无缝集成豆包大模型 1.6 等多种模型,开发者可通过自然语言交互,快速生成代码并完成本地部署...
阅读原文

图像生成告别AI味!清华、港中大、腾讯混元联手推出SRPO新方法,美观、逼真、艺术感都有了

算泥社区是集 “AI 大模型开发服务 + 算法 + 算力” 于一体的开源生态社区,欢迎关注!文本到图像生成技术近年来取得了令人瞩目的进展。从DALL-E,Midjourney,...
阅读原文

腾讯ima开源了,人人都能本地部署!

大家好,我是Cita(西塔),一名程序员,致力于在AI时代成为Vibe Coding(氛围编程)的资深大佬,带领上万人学会AI编程。点击下方名片关注公众号,领取AI资料包...
阅读原文

MobileLLM-R1

MobileLLM-R1是Meta推出的一系列专为数学、编程和科学推理设计的高效推理模型。系列包含基础模型和最终模型,分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通...
阅读原文