#OpenAI FM

OpenAI FM

AI语音生成

An interactive demo for developers to try the new text-to-speech model in the OpenAI API

OpenAI FM-OpenAI FM | allinAI.Tools

What is OpenAI FM

音频与语音

探索 OpenAI API 中的音频和语音功能。


复制页面

OpenAI API 提供了一系列音频功能。如果您已经知道要构建的内容,可以在下方找到相应的使用案例开始开发。如果您不确定从哪里开始,可以阅读本页面的概述。


音频使用案例概览

LLM(大语言模型)可以通过声音输入处理音频,生成声音输出,或两者兼具。OpenAI 提供多个 API 端点,帮助您构建音频应用程序或语音代理。


语音代理

语音代理可以理解音频,以处理任务并以自然语言响应。有两种主要方式实现语音代理:使用语音到语音模型和 Realtime API,或者通过组合语音到文本模型、文本语言模型(用于处理请求)以及文本到语音模型来实现。语音到语音方法延迟更低,更加自然,而组合多个模型的方法则是将文本代理扩展为语音代理的可靠方式。


流式音频

实时处理音频,以构建语音代理和其他低延迟应用程序,包括转录功能。您可以使用 Realtime API 在模型内外进行音频流式传输。我们的高级语音模型提供自动语音识别功能,以提高准确性、降低延迟,并支持多语言交互。


文本转语音

要将文本转换为语音,可以使用 Audio API audio/speech 端点。与该端点兼容的模型包括 gpt-4o-mini-ttstts-1 和 tts-1-hd。使用 gpt-4o-mini-tts,您可以让模型以特定方式或特定语调进行发声。


语音转文本

要将语音转换为文本,可以使用 Audio API audio/transcriptions 端点。与该端点兼容的模型包括 gpt-4o-transcribegpt-4o-mini-transcribe 和 whisper-1。通过流式传输,您可以持续输入音频,并获得连续的文本输出。

View more Introduction for OpenAI FM

How to Use OpenAI FM

选择合适的 API


用于转录或生成音频的 API 主要包括:

API支持的模式流式支持Realtime API音频和文本输入输出支持音频流式输入和输出Chat Completions API音频和文本输入输出支持音频流式输出Transcription API音频输入支持音频流式输出Speech API文本输入和音频输出支持音频流式输出


通用 API vs. 专用 API

主要区别在于通用 API 和专用 API。使用 Realtime 和 Chat Completions API,您可以利用最新模型的音频理解和生成能力,并结合其他功能(如函数调用)。这些 API 适用于广泛的使用场景,且您可以选择不同的模型。

另一方面,Transcription、Translation 和 Speech API 仅限于特定的任务,例如语音转录、翻译或语音合成。


对话式交互 vs. 脚本控制

选择合适 API 的另一种方式是考虑您需要多少控制权。如果您希望设计对话交互,即模型能够思考并用语音响应,可以使用 Realtime 或 Chat Completions API,具体取决于您是否需要低延迟。

使用这些 API,您无法提前确定模型的具体回答,但能提供更自然的交互体验。

如果您希望更多控制和可预测性,可以使用语音到文本 / LLM / 文本到语音的模式,以确保模型输出可控,但会增加一定的延迟。

Audio API 适用于此类场景:结合 LLM 与 audio/transcriptions 和 audio/speech 端点,接收用户语音输入,处理生成文本响应,再转换为语音输出。


推荐

如果需要 实时交互 或 转录功能,请使用 Realtime API。

如果实时性不是必须,但希望构建 语音代理 或支持 函数调用 的音频应用,请使用 Chat Completions API。

如果仅需特定用途,请使用 Transcription、Translation 或 Speech API。

为现有应用添加音频功能

GPT-4o 和 GPT-4o mini 等模型原生支持多模态输入输出,即可以理解和生成多种格式的数据。

如果您的应用当前使用 Chat Completions 端点进行文本交互,可考虑添加音频功能。例如,如果您的聊天应用支持文本输入,可以增加音频输入和输出——只需在 modalities 数组中包含 audio 并使用音频模型,如 gpt-4o-audio-preview。

View more how to use OpenAI FM
Buy Me A Coffee
🦜

The best AI语音生成

AI Voice Generation uses advanced models like Google WaveNet, OpenAI's Jukebox, and Amazon Polly to create realistic synthetic voices, enhance virtual assistants, and produce high-quality audio content for various applications, revolutionizing the way we interact with technology.

Recommend More AI语音生成 AI tools

Subscribe to our newsletter

Your data is complely secured with us. We don't share with anyone.