OpenAI FM

AI语音生成

An interactive demo for developers to try the new text-to-speech model in the OpenAI API

Try

OpenAI FM

What is OpenAI FM

音频与语音

探索 OpenAI API 中的音频和语音功能。

复制页面

OpenAI API 提供了一系列音频功能。如果您已经知道要构建的内容，可以在下方找到相应的使用案例开始开发。如果您不确定从哪里开始，可以阅读本页面的概述。

音频使用案例概览

LLM（大语言模型）可以通过声音输入处理音频，生成声音输出，或两者兼具。OpenAI 提供多个 API 端点，帮助您构建音频应用程序或语音代理。

语音代理

语音代理可以理解音频，以处理任务并以自然语言响应。有两种主要方式实现语音代理：使用语音到语音模型和 Realtime API，或者通过组合语音到文本模型、文本语言模型（用于处理请求）以及文本到语音模型来实现。语音到语音方法延迟更低，更加自然，而组合多个模型的方法则是将文本代理扩展为语音代理的可靠方式。

流式音频

实时处理音频，以构建语音代理和其他低延迟应用程序，包括转录功能。您可以使用 Realtime API 在模型内外进行音频流式传输。我们的高级语音模型提供自动语音识别功能，以提高准确性、降低延迟，并支持多语言交互。

文本转语音

要将文本转换为语音，可以使用 Audio API audio/speech 端点。与该端点兼容的模型包括 gpt-4o-mini-tts、tts-1 和 tts-1-hd。使用 gpt-4o-mini-tts，您可以让模型以特定方式或特定语调进行发声。

语音转文本

要将语音转换为文本，可以使用 Audio API audio/transcriptions 端点。与该端点兼容的模型包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 whisper-1。通过流式传输，您可以持续输入音频，并获得连续的文本输出。

View more Introduction for OpenAI FM

How to Use OpenAI FM

选择合适的 API

用于转录或生成音频的 API 主要包括：

API支持的模式流式支持Realtime API音频和文本输入输出支持音频流式输入和输出Chat Completions API音频和文本输入输出支持音频流式输出Transcription API音频输入支持音频流式输出Speech API文本输入和音频输出支持音频流式输出

通用 API vs. 专用 API

主要区别在于通用 API 和专用 API。使用 Realtime 和 Chat Completions API，您可以利用最新模型的音频理解和生成能力，并结合其他功能（如函数调用）。这些 API 适用于广泛的使用场景，且您可以选择不同的模型。

另一方面，Transcription、Translation 和 Speech API 仅限于特定的任务，例如语音转录、翻译或语音合成。

对话式交互 vs. 脚本控制

选择合适 API 的另一种方式是考虑您需要多少控制权。如果您希望设计对话交互，即模型能够思考并用语音响应，可以使用 Realtime 或 Chat Completions API，具体取决于您是否需要低延迟。

使用这些 API，您无法提前确定模型的具体回答，但能提供更自然的交互体验。

如果您希望更多控制和可预测性，可以使用语音到文本 / LLM / 文本到语音的模式，以确保模型输出可控，但会增加一定的延迟。

Audio API 适用于此类场景：结合 LLM 与 audio/transcriptions 和 audio/speech 端点，接收用户语音输入，处理生成文本响应，再转换为语音输出。

为现有应用添加音频功能

GPT-4o 和 GPT-4o mini 等模型原生支持多模态输入输出，即可以理解和生成多种格式的数据。

如果您的应用当前使用 Chat Completions 端点进行文本交互，可考虑添加音频功能。例如，如果您的聊天应用支持文本输入，可以增加音频输入和输出——只需在 modalities 数组中包含 audio 并使用音频模型，如 gpt-4o-audio-preview。

View more how to use OpenAI FM

🦜

AI Voice Generation uses advanced models like Google WaveNet, OpenAI's Jukebox, and Amazon Polly to create realistic synthetic voices, enhance virtual assistants, and produce high-quality audio content for various applications, revolutionizing the way we interact with technology.

View all 4 AI语音生成 tools

Eleven

Convert text to speech online for free with our AI voice generator. Create natural AI voices instantly in any language - perfect for video creators, developers, and businesses.

TikTok Voice

Tiktok voice is an Ai powered tts ,text to speech generator tool. Can generate lady's voice, Siri-like voice ,the other poupular and vrial tiktok voices

Voice Design AI

Transform your content with cutting-edge AI voice over and text to speech solutions. Our Voice Design AI offers natural-sounding, customizable voices for podcasts, e-learning, and more. Try our AI voice generator today!

All

AI语音生成

AI Tools

最新博客文章

查看所有文章 →

2025年12月17日

Flux.2 Max 现已正式发布

Flux 2 Max 是 Flux 2 系列中最先进的版本，专为追求高精度、真实感和生产级视觉输出的创作者而设计。作为一款高端的 AI 图像生成器（AI Image Generator）与强大的 AI 图像编辑器（AI Image Editor）的结合体，Flux 2 Max 将图像质量与一致性提升到了全新高度，非常适合专业级创作流程。

2025年12月11日

11月热门 AI 工具推荐

随着人工智能的飞速发展，11月成为了全年最具突破性的月份之一。从新一代图像模型和令人惊叹的视频工具，到能够编写代码、构建应用程序、清理杂乱数据，甚至从零开始创建完整学习中心的 AI 助手，应有尽有。无论你是创作者、营销人员、学生、开发者，还是仅仅是一位人工智能爱好者，本月的种种新发现都会让你重新思考人工智能的无限可能。

2025年2月1日

2025年最佳AI大模型与AI工具

2025年最佳AI大模型与AI工具，最受欢迎的免费AI大模型与AI工具。

2024年12月23日

10个内容营销专业人士必备的AI写作工具

探索10个强大的AI写作工具，它们将彻底改变你的内容营销工作流程。从演示文稿到文章，这些工具可以帮助你高效创建引人入胜的内容。

OpenAI FM

AI语音生成

What is OpenAI FM

音频与语音

音频使用案例概览

语音代理

流式音频

文本转语音

语音转文本

How to Use OpenAI FM

选择合适的 API

通用 API vs. 专用 API

对话式交互 vs. 脚本控制

推荐

为现有应用添加音频功能

The best AI语音生成

Recommend More AI语音生成 AI tools

Eleven

TikTok Voice

Voice Design AI

AI语音生成

最新博客文章

Flux.2 Max 现已正式发布

11月热门 AI 工具推荐

2025年最佳AI大模型与AI工具

10个内容营销专业人士必备的AI写作工具