···
首页
···
开发工具
···
开发入门教程
···
网址导航
···
搜索
Ctrl K
开发工具
开发入门教程
前端开发
服务器相关
Java
Python
数据库
前端网址导航
设计网址导航
AI网址导航
量化交易导航
全部
AI文案写作
AI图像绘画
AI设计
AI音视频
AI编程开发
AI开放平台
开源大模型
AI学习交流
其他工具
MCP中文站
模型上下文交互标准协议(Model Context Protocol ),为AI模型推理提供标准化的上下文信息交互协议 ,MCP的一个中文站;
Awesome MCP Servers
模型上下文协议的服务器集合
MCP官方服务
该资源库收集了模型上下文协议(MCP)的参考实现,以及社区构建的服务器和其他资源的参考。
Cline
Cline是一个强大的AI编程插件,Cline在Open Router排行榜中长期占据领先地位,支持多种免费模型,能够显著提高编程效率。
精选的 MCP 服务器
精选的优秀模型上下文协议 (MCP) 服务器列表。
Spark TTS
Spark-TTS 是一种先进的文本转语音系统,它利用大型语言模型(LLM)的强大能力,实现高度准确且自然流畅的语音合成。该系统设计高效、灵活且功能强大,适用于研究和生产用途。
MCP
Model Context Protocol (MCP) 是一个开放协议,它使 LLM 应用与外部数据源和工具之间的无缝集成成为可能。无论你是构建 AI 驱动的 IDE、改善 chat 交互,还是构建自定义的 AI 工作流,MCP 提供了一种标准化的方式,将 LLM 与它们所需的上下文连接起来。 中文版文档:https://mcp-docs.cn/introduction
Llasa
Llasa 是一款由香港科技大学音频实验室开源的零样本语音克隆和 TTS 模型。它既支持从纯文本生成语音,也支持利用给定的参考语音进行高精度的语音克隆。Llasa 着重提升语音克隆的保真度和自然度,力求在零样本条件下实现高度逼真的音色复刻效果。如果您对语音克隆技术的质量有较高要求,Llasa 值得深入研究和应用。
Kokoro
Kokoro 是一款参数量相对较小的开源 TTS 模型,仅有 8200 万参数,并在相对较小的音频数据集上进行训练。尽管模型规模不大,Kokoro 依然展现出良好的多语言支持能力,证明了小模型在多语言 TTS 领域的潜力。如果需要在资源受限的环境中部署多语言 TTS 功能,Kokoro 或许是一个可行的选择。 https://huggingface.co/spaces/hexgrad/Kokoro-TTS
OuteTTS
OuteTTS (亦常被称为 Smol TTS) 基于 LLaMa 架构构建,是一款零样本语音克隆模型。其主要特点是轻巧灵活,易于部署和使用。对于希望快速尝试零样本克隆技术,但又不想使用过于复杂模型的开发者而言,OuteTTS 是一个值得尝试的入门级选择。
MaskGCT
MaskGCT 是一款完全非自回归的 TTS 模型,同样具备强大的零样本特性。它功能丰富,支持跨语言翻译配音、语音克隆、语种转换、情感控制等多种高级功能。非自回归架构使其在保证合成质量的同时,拥有更高的生成速度和效率,而多样化的功能则使其应用场景更为广泛。
F5-TTS
F5-TTS 由上海交通大学和剑桥大学联合开源,主打零样本声音克隆和实时语音合成。其推理实时率达到 0.15,意味着合成速度远超实时,能够满足对延迟敏感的应用需求。此外,F5-TTS 还支持语速控制和跨语言/方言的平滑过渡,为语音合成提供了更高的灵活性和可控性。 "实时率 0.15" 通常指 Real-Time Factor (RTF),数值越小,合成速度越快;RTF=0.15 意味着合成 1 秒钟的语音仅需 0.15 秒。
Parler-TTS
Parler-TTS 着重于轻量级和风格化语音合成。它能够在指定说话人风格的前提下,生成高质量且自然的语音,并能模仿目标说话者的性别、音调、语速等个性化特征。这使得 Parler-TTS 在资源受限的设备上也能高效运行,并为语音合成赋予更丰富的个性化色彩和表现力。
FunAudioLLM
FunAudioLLM 由阿里巴巴开源,其创新之处在于将 TTS 技术与大型语言模型(LLM)深度融合,旨在实现人与 LLM 之间更自然流畅的语音交互。它不仅关注高质量的语音生成,更强调语音理解和生成在 LLM 应用中的协同作用,探索下一代语音交互范式。这里特备关注的是 CosyVoice ,拥有优秀的快速语音克隆能力。
Fish Speech
Fish Speech 专注于中文、英文和日文的语音合成,尤其在中文语音处理方面表现出色。该项目强调其语音合成质量接近真人水平,这得益于使用约十五万小时的三语数据进行训练。如果您的应用场景以中文为主,并对语音的自然度和表现力有较高要求,Fish Speech 值得重点考察。
IMS Toucan
IMS Toucan 以其广泛的语言支持著称,声称能够合成超过 7000 种语言的语音。这一惊人的语言覆盖范围使其成为构建全球化应用的理想选择。同时,IMS Toucan 也具备多说话人语音合成功能,能够模拟不同说话人的语音特征,提供丰富的音色选择。
ChatTTS
专注于优化对话场景下的语音合成效果,其核心优势在于优秀的中英混合语境处理能力和多说话人模拟。它支持包括中文、英文、日文在内的六种语言配置,并能流畅自然地合成中英文混杂的文本,这对于需要处理多语言对话内容的应用场景尤其重要。多说话人功能则允许 ChatTTS 模拟不同角色的声音,为对话系统赋予更丰富的表现力。
Spark-TTS
Spark-TTS 基于大型语言模型的文本转语音模型,是一个先进的文本转语音系统,利用大型语言模型(LLM)的强大功能,实现高度准确和自然的声音合成。它被设计为高效、灵活且强大,适用于研究和生产用途。 https://github.com/SparkAudio/Spark-TTS
pytorch
它是一个开源深度学习框架,由 Facebook 推出,主要用来构建和训练神经网络,广泛应用于研究和实际开发。你可以用它处理图片、文本、语音,甚至创造 AI 艺术作品
ollama
Ollama是一个强大的本地大语言模型运行框架,它让用户能够在本地设备上轻松运行和管理各种大语言模型。
Trae
Trae 是国内首个 AI IDE,深度理解中文开发场景。AI 高度集成于 IDE 环境之中,为你带来比 AI 插件更加流畅、准确、优质的开发体验。
上一页
1
2
3
4
5
下一页
前往
页