How to use OpenAI FM

选择合适的 API

用于转录或生成音频的 API 主要包括：

API支持的模式流式支持Realtime API音频和文本输入输出支持音频流式输入和输出Chat Completions API音频和文本输入输出支持音频流式输出Transcription API音频输入支持音频流式输出Speech API文本输入和音频输出支持音频流式输出

通用 API vs. 专用 API

主要区别在于通用 API 和专用 API。使用 Realtime 和 Chat Completions API，您可以利用最新模型的音频理解和生成能力，并结合其他功能（如函数调用）。这些 API 适用于广泛的使用场景，且您可以选择不同的模型。

另一方面，Transcription、Translation 和 Speech API 仅限于特定的任务，例如语音转录、翻译或语音合成。

对话式交互 vs. 脚本控制

选择合适 API 的另一种方式是考虑您需要多少控制权。如果您希望设计对话交互，即模型能够思考并用语音响应，可以使用 Realtime 或 Chat Completions API，具体取决于您是否需要低延迟。

使用这些 API，您无法提前确定模型的具体回答，但能提供更自然的交互体验。

如果您希望更多控制和可预测性，可以使用语音到文本 / LLM / 文本到语音的模式，以确保模型输出可控，但会增加一定的延迟。

Audio API 适用于此类场景：结合 LLM 与 audio/transcriptions 和 audio/speech 端点，接收用户语音输入，处理生成文本响应，再转换为语音输出。

为现有应用添加音频功能

GPT-4o 和 GPT-4o mini 等模型原生支持多模态输入输出，即可以理解和生成多种格式的数据。

如果您的应用当前使用 Chat Completions 端点进行文本交互，可考虑添加音频功能。例如，如果您的聊天应用支持文本输入，可以增加音频输入和输出——只需在 modalities 数组中包含 audio 并使用音频模型，如 gpt-4o-audio-preview。

Summary and Review:

Learn more about AI tools - OpenAI FM

最新博客文章

查看所有文章 →

2025年2月1日

2025年最佳AI大模型与AI工具

2025年最佳AI大模型与AI工具，最受欢迎的免费AI大模型与AI工具。

2024年12月23日

10个内容营销专业人士必备的AI写作工具

探索10个强大的AI写作工具，它们将彻底改变你的内容营销工作流程。从演示文稿到文章，这些工具可以帮助你高效创建引人入胜的内容。

2024年10月31日

What is New Update

All in AI Tools website Update log

Apple Intelligence Finally Meets Apple Fans

2024年7月24日

Apple Intelligence Finally Meets Apple Fans

With the launch of the iOS 18.1 Beta version, registered developers can now experience some of the features of Apple AI, a cutting-edge addition to AI tools.