Introduction of OpenAI FM

音频与语音

探索 OpenAI API 中的音频和语音功能。

复制页面

OpenAI API 提供了一系列音频功能。如果您已经知道要构建的内容，可以在下方找到相应的使用案例开始开发。如果您不确定从哪里开始，可以阅读本页面的概述。

音频使用案例概览

LLM（大语言模型）可以通过声音输入处理音频，生成声音输出，或两者兼具。OpenAI 提供多个 API 端点，帮助您构建音频应用程序或语音代理。

语音代理

语音代理可以理解音频，以处理任务并以自然语言响应。有两种主要方式实现语音代理：使用语音到语音模型和 Realtime API，或者通过组合语音到文本模型、文本语言模型（用于处理请求）以及文本到语音模型来实现。语音到语音方法延迟更低，更加自然，而组合多个模型的方法则是将文本代理扩展为语音代理的可靠方式。

流式音频

实时处理音频，以构建语音代理和其他低延迟应用程序，包括转录功能。您可以使用 Realtime API 在模型内外进行音频流式传输。我们的高级语音模型提供自动语音识别功能，以提高准确性、降低延迟，并支持多语言交互。

文本转语音

要将文本转换为语音，可以使用 Audio API audio/speech 端点。与该端点兼容的模型包括 gpt-4o-mini-tts、tts-1 和 tts-1-hd。使用 gpt-4o-mini-tts，您可以让模型以特定方式或特定语调进行发声。

语音转文本

要将语音转换为文本，可以使用 Audio API audio/transcriptions 端点。与该端点兼容的模型包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 whisper-1。通过流式传输，您可以持续输入音频，并获得连续的文本输出。

Summary and Review:

OpenAI API 提供强大的音频和语音功能，使开发者能够将 AI 工具集成到各种应用中。AI 模型可处理和生成音频，实现语音代理、实时流式传输、文本转语音和语音转文本等功能。

语音代理可通过语音到语音的 AI 模型构建，或结合多个 AI 工具（如语音识别和语言处理）来实现。Realtime API 支持流式音频传输，确保低延迟交互。此外，gpt-4o-mini-tts 和 whisper-1 等 AI 模型可增强语音合成和转录功能，使 AI 驱动的音频应用更自然高效。

Learn more about AI tools - OpenAI FM

最新博客文章

查看所有文章 →

2025年12月17日

Flux.2 Max 现已正式发布

Flux 2 Max 是 Flux 2 系列中最先进的版本，专为追求高精度、真实感和生产级视觉输出的创作者而设计。作为一款高端的 AI 图像生成器（AI Image Generator）与强大的 AI 图像编辑器（AI Image Editor）的结合体，Flux 2 Max 将图像质量与一致性提升到了全新高度，非常适合专业级创作流程。

2025年12月11日

11月热门 AI 工具推荐

随着人工智能的飞速发展，11月成为了全年最具突破性的月份之一。从新一代图像模型和令人惊叹的视频工具，到能够编写代码、构建应用程序、清理杂乱数据，甚至从零开始创建完整学习中心的 AI 助手，应有尽有。无论你是创作者、营销人员、学生、开发者，还是仅仅是一位人工智能爱好者，本月的种种新发现都会让你重新思考人工智能的无限可能。

2025年2月1日

2025年最佳AI大模型与AI工具

2025年最佳AI大模型与AI工具，最受欢迎的免费AI大模型与AI工具。

2024年12月23日

10个内容营销专业人士必备的AI写作工具

探索10个强大的AI写作工具，它们将彻底改变你的内容营销工作流程。从演示文稿到文章，这些工具可以帮助你高效创建引人入胜的内容。