https://ai.baidu.com/docs#/TTS-Online-Java-SDK/top
Hi,您好,欢迎使用百度语音合成服务。
本文档主要针对Java开发者,描述百度语音合成接口服务的相关技术内容。如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:
在百度云控制台内提交工单,咨询问题类型请选择人工智能服务;
QQ群快速沟通: AI开放平台官网首页底部“QQ支持群”中,查找“百度语音”。
接口名称 | 接口能力简要描述 |
---|---|
语音合成 | 将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。 |
目前本SDK的功能同REST API,需要联网调用http接口 。REST API 仅支持最多512字(1024 字节)的音频合成,合成的文件格式为mp3。没有其他额外功能。 如果需要使用离线合成等其它功能,请使用Android或者iOS 合成 SDK
请严格按照文档里描述的参数进行开发。请注意以下几个问题:
合成文本长度必须小于1024字节,如果本文长度较长,可以采用多次请求的方式。切忌文本长度超过限制。
语音合成 rest api不限制调用量,但是初始的QPS为100,如果默认配额不能满足您的业务需求,请从控制台中申请提高配额,我们会在两个工作日内完成审批
必填字段中,严格按照文档描述中内容填写。
上线日期 | 版本号 | 更新内容 |
---|---|---|
2018.1.26 | 4.1.1 | 语音合成修复服务端不返回Content-Type的情况;新增日志记录 |
2017.12.12 | 3.4.1 | 语音合成问题修复 |
2017.11.10 | 3.3.1 | 语音合成返回无sn问题修复 |
2017.10.18 | 3.2.1 | 使用proxy问题修复 |
2017.8.25 | 3.0.0 | 更新sdk打包方式:所有AI服务集成一个SDK |
2017.7.14 | 1.0.1 | 更新sdk打包方式 |
2017.6.30 | 1.0.0 | 新增语音合成服务接口 |
Speech Java SDK目录结构
com.baidu.aip ├── auth //签名相关类 ├── http //Http通信相关类 ├── client //公用类 ├── exception //exception类 ├── speech │ └── AipSpeech //AipSpeech类 └── util //工具类
支持 JAVA版本:1.7+
查看源码
Java SDK代码现已公开,您可以查看代码、或者在License范围内修改和编译SDK以适配您的环境。 github链接:https://github.com/Baidu-AIP/java-sdk
使用maven依赖:
添加以下依赖即可。其中版本号可在maven官网查询
<dependency> <groupId>com.baidu.aip</groupId> <artifactId>java-sdk</artifactId> <version>${version}</version></dependency>
直接使用JAR包步骤如下:
1.在官方网站下载Java SDK压缩工具包。
2.将下载的aip-java-sdk-version.zip
解压后,复制到工程文件夹中。
3.在Eclipse右键“工程 -> Properties -> Java Build Path -> Add JARs”。
4.添加SDK工具包aip-java-sdk-version.jar
和第三方依赖工具包json-20160810.jar
log4j-1.2.17.jar
。
其中,version
为版本号,添加完成后,用户就可以在工程中使用Speech Java SDK。
AipSpeech是语音识别的Java客户端,为使用语音识别的开发人员提供了一系列的交互方法。
用户可以参考如下代码新建一个AipSpeech,初始化完成后建议单例使用,避免重复获取access_token:
public class Sample { //设置APPID/AK/SK public static final String APP_ID = "你的 App ID"; public static final String API_KEY = "你的 Api Key"; public static final String SECRET_KEY = "你的 Secret Key"; public static void main(String[] args) { // 初始化一个AipSpeech AipSpeech client = new AipSpeech(APP_ID, API_KEY, SECRET_KEY); // 可选:设置网络连接参数 client.setConnectionTimeoutInMillis(2000); client.setSocketTimeoutInMillis(60000); // 可选:设置代理服务器地址, http和socket二选一,或者均不设置 client.setHttpProxy("proxy_host", proxy_port); // 设置http代理 client.setSocketProxy("proxy_host", proxy_port); // 设置socket代理 // 可选:设置log4j日志输出格式,若不设置,则使用默认配置 // 也可以直接通过jvm启动参数设置此环境变量 System.setProperty("aip.log4j.conf", "path/to/your/log4j.properties"); // 调用接口 TtsResponse res = client.synthesis("你好百度", "zh", 1, null); byte[] data = res.getData(); JSONObject res1 = res.getResult(); if (data != null) { try { Util.writeBytesToFileSystem(data, "output.mp3"); } catch (IOException e) { e.printStackTrace(); } } if (res1 != null) { System.out.println(res1.toString(2)); } } }
其中示例的log4j.properties文件内容如下:
#可以设置级别:debug>info>error#debug:显示debug、info、error#info:显示info、error#error:只errorlog4j.rootLogger=debug,appender1#log4j.rootLogger=info,appender1#log4j.rootLogger=error,appender1#输出到控制台log4j.appender.appender1=org.apache.log4j.ConsoleAppender#样式为TTCCLayoutlog4j.appender.appender1.layout=org.apache.log4j.PatternLayout#自定义样式# %r 时间 0# %t 方法名 main# %p 优先级 DEBUG/INFO/ERROR# %c 所属类的全名(包括包名)# %l 发生的位置,在某个类的某行# %m 输出代码中指定的讯息,如log(message)中的message# %n 输出一个换行log4j.appender.appender1.layout.ConversionPattern=[%d{yy/MM/dd HH:mm:ss:SSS}][%t][%p] -%l %m%n
在上面代码中,常量APP_ID
在百度云控制台中创建,常量API_KEY
与SECRET_KEY
是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。
如果用户需要配置AipSpeech的一些细节参数,可以在构造AipSpeech之后调用接口设置参数,目前只支持以下参数:
接口 | 说明 |
---|---|
setConnectionTimeoutInMillis | 建立连接的超时时间(单位:毫秒) |
setSocketTimeoutInMillis | 通过打开的连接传输数据的超时时间(单位:毫秒) |
setHttpProxy | 设置http代理服务器 |
setSocketProxy | 设置socket代理服务器 (http和socket类型代理服务器只能二选一) |
基于该接口,开发者可以轻松的获取语音合成能力
合成文本长度必须小于1024字节,如果本文长度较长,可以采用多次请求的方式。文本长度不可超过限制
举例,要把一段文字合成为语音文件:
public void synthesis(AipSpeech client) { TtsResponse res = client.synthesis("你好百度", "zh", 1, null); System.out.println(res.getErrorCode()); // 设置可选参数 HashMap<String, Object> options = new HashMap<String, Object>(); options.put("spd", "5"); options.put("pit", "5"); options.put("per", "4"); TtsResponse res = client.synthesis("你好百度", "zh", 1, options); System.out.println(res.getErrorCode()); JSONObject result = res.getResult(); //服务器返回的内容,合成成功时为null,失败时包含error_no等信息 byte[] data = res.getData(); //生成的音频数据}
参数 | 类型 | 描述 | 是否必须 |
---|---|---|---|
tex | String | 合成的文本,使用UTF-8编码, 请注意文本长度必须小于1024字节 | 是 |
cuid | String | 用户唯一标识,用来区分用户, 填写机器 MAC 地址或 IMEI 码,长度为60以内 | 否 |
spd | String | 语速,取值0-9,默认为5中语速 | 否 |
pit | String | 音调,取值0-9,默认为5中语调 | 否 |
vol | String | 音量,取值0-15,默认为5中音量 | 否 |
per | String | 发音人选择, 0为女声,1为男声, 3为情感合成-度逍遥,4为情感合成-度丫丫,默认为普通女 | 否 |
返回样例:
返回TtsResponse类。 如果合成成功,下行数据为二进制语音文件,包含在data中。 如果合成出现错误,则会填充返回值到result中。
返回失败:
// 失败返回{ "err_no":500, "err_msg":"notsupport.", "sn":"abcdefgh", "idx":1}
若请求错误,服务器将返回的JSON文本包含以下参数:
error_code:错误码。
error_msg:错误描述信息,帮助理解和解决发生的错误。
SDK本地检测参数返回的错误码:
error_code | error_msg | 备注 |
---|---|---|
SDK108 | connection or read data time out | 连接超时或读取数据超时 |
服务端返回的错误码
错误码 | 含义 |
---|---|
500 | 不支持的输入 |
501 | 输入参数不正确 |
502 | token验证失败 |
503 | 合成后端错误 |
上一篇:对接收银机双工线 开发SDK