AIGC网址导航 - 网址导航｜ PV138开发资源网

全部 AI文案写作 AI图像绘画 AI设计 AI音视频 AI编程开发 AI开放平台开源大模型 AI学习交流其他工具

MCP中文站

模型上下文交互标准协议（Model Context Protocol ），为AI模型推理提供标准化的上下文信息交互协议，MCP的一个中文站；

Awesome MCP Servers

模型上下文协议的服务器集合

MCP官方服务

该资源库收集了模型上下文协议（MCP）的参考实现，以及社区构建的服务器和其他资源的参考。

Cline

Cline是一个强大的AI编程插件，Cline在Open Router排行榜中长期占据领先地位，支持多种免费模型，能够显著提高编程效率。

精选的 MCP 服务器

精选的优秀模型上下文协议 (MCP) 服务器列表。

Spark TTS

Spark-TTS 是一种先进的文本转语音系统，它利用大型语言模型（LLM）的强大能力，实现高度准确且自然流畅的语音合成。该系统设计高效、灵活且功能强大，适用于研究和生产用途。

MCP

Model Context Protocol (MCP) 是一个开放协议，它使 LLM 应用与外部数据源和工具之间的无缝集成成为可能。无论你是构建 AI 驱动的 IDE、改善 chat 交互，还是构建自定义的 AI 工作流，MCP 提供了一种标准化的方式，将 LLM 与它们所需的上下文连接起来。中文版文档：https://mcp-docs.cn/introduction

Llasa

Llasa 是一款由香港科技大学音频实验室开源的零样本语音克隆和 TTS 模型。它既支持从纯文本生成语音，也支持利用给定的参考语音进行高精度的语音克隆。Llasa 着重提升语音克隆的保真度和自然度，力求在零样本条件下实现高度逼真的音色复刻效果。如果您对语音克隆技术的质量有较高要求，Llasa 值得深入研究和应用。

Kokoro

Kokoro 是一款参数量相对较小的开源 TTS 模型，仅有 8200 万参数，并在相对较小的音频数据集上进行训练。尽管模型规模不大，Kokoro 依然展现出良好的多语言支持能力，证明了小模型在多语言 TTS 领域的潜力。如果需要在资源受限的环境中部署多语言 TTS 功能，Kokoro 或许是一个可行的选择。 https://huggingface.co/spaces/hexgrad/Kokoro-TTS

OuteTTS

OuteTTS (亦常被称为 Smol TTS) 基于 LLaMa 架构构建，是一款零样本语音克隆模型。其主要特点是轻巧灵活，易于部署和使用。对于希望快速尝试零样本克隆技术，但又不想使用过于复杂模型的开发者而言，OuteTTS 是一个值得尝试的入门级选择。

MaskGCT

MaskGCT 是一款完全非自回归的 TTS 模型，同样具备强大的零样本特性。它功能丰富，支持跨语言翻译配音、语音克隆、语种转换、情感控制等多种高级功能。非自回归架构使其在保证合成质量的同时，拥有更高的生成速度和效率，而多样化的功能则使其应用场景更为广泛。

F5-TTS

F5-TTS 由上海交通大学和剑桥大学联合开源，主打零样本声音克隆和实时语音合成。其推理实时率达到 0.15，意味着合成速度远超实时，能够满足对延迟敏感的应用需求。此外，F5-TTS 还支持语速控制和跨语言/方言的平滑过渡，为语音合成提供了更高的灵活性和可控性。 "实时率 0.15" 通常指 Real-Time Factor (RTF)，数值越小，合成速度越快；RTF=0.15 意味着合成 1 秒钟的语音仅需 0.15 秒。

Parler-TTS

Parler-TTS 着重于轻量级和风格化语音合成。它能够在指定说话人风格的前提下，生成高质量且自然的语音，并能模仿目标说话者的性别、音调、语速等个性化特征。这使得 Parler-TTS 在资源受限的设备上也能高效运行，并为语音合成赋予更丰富的个性化色彩和表现力。

FunAudioLLM

FunAudioLLM 由阿里巴巴开源，其创新之处在于将 TTS 技术与大型语言模型（LLM）深度融合，旨在实现人与 LLM 之间更自然流畅的语音交互。它不仅关注高质量的语音生成，更强调语音理解和生成在 LLM 应用中的协同作用，探索下一代语音交互范式。这里特备关注的是 CosyVoice ，拥有优秀的快速语音克隆能力。

Fish Speech

Fish Speech 专注于中文、英文和日文的语音合成，尤其在中文语音处理方面表现出色。该项目强调其语音合成质量接近真人水平，这得益于使用约十五万小时的三语数据进行训练。如果您的应用场景以中文为主，并对语音的自然度和表现力有较高要求，Fish Speech 值得重点考察。

IMS Toucan

IMS Toucan 以其广泛的语言支持著称，声称能够合成超过 7000 种语言的语音。这一惊人的语言覆盖范围使其成为构建全球化应用的理想选择。同时，IMS Toucan 也具备多说话人语音合成功能，能够模拟不同说话人的语音特征，提供丰富的音色选择。

ChatTTS

专注于优化对话场景下的语音合成效果，其核心优势在于优秀的中英混合语境处理能力和多说话人模拟。它支持包括中文、英文、日文在内的六种语言配置，并能流畅自然地合成中英文混杂的文本，这对于需要处理多语言对话内容的应用场景尤其重要。多说话人功能则允许 ChatTTS 模拟不同角色的声音，为对话系统赋予更丰富的表现力。

Spark-TTS

Spark-TTS 基于大型语言模型的文本转语音模型,是一个先进的文本转语音系统，利用大型语言模型（LLM）的强大功能，实现高度准确和自然的声音合成。它被设计为高效、灵活且强大，适用于研究和生产用途。 https://github.com/SparkAudio/Spark-TTS

pytorch

它是一个开源深度学习框架，由 Facebook 推出，主要用来构建和训练神经网络，广泛应用于研究和实际开发。你可以用它处理图片、文本、语音，甚至创造 AI 艺术作品

ollama

Ollama是一个强大的本地大语言模型运行框架，它让用户能够在本地设备上轻松运行和管理各种大语言模型。

Trae

Trae 是国内首个 AI IDE，深度理解中文开发场景。AI 高度集成于 IDE 环境之中，为你带来比 AI 插件更加流畅、准确、优质的开发体验。

© 2023 PV138 · 站点地图 · 免责声明 · 联系我们 · 问题反馈

京ICP备16004482号-1

京公网安备11010802040649号