如何使用TEN-Framework,把你的Rokid集成最新最酷的多模态AI应用(一)
撰写:朱逸骁Eason_方披萨
相信许多同学和我一样,作为一个应用开发者,非常想让自己的应用接入AI能力!
Rokid作为一款AR设备也是AI行业最佳实践,我们掌握接入技巧一定会对大家的应用如虎添翼~而TEN是开源社区里第一个真正意义上的实时多模态AI框架。TEN支持高性能实时多模态交互,多语言、多平台,端云结合,大模型灵活搭配和实时代理模态管理等强强功能,现在更加可以接入OpenAI realtime api。
现在把经验毫无保留分享给大家,看完这篇文章,你将收获:
如何用最快流程成功接入TEN Framework,并在Unity Editor中成功测试。
第一步:安装部署TEN Framework环境(需要神秘力量)
具体也可以社区中参考(Elliott)吴彦祖的视频
或参考 Github地址中 How to build TEN Agent locally章节:
https://github.com/ten-framework/ten-agent
以及快速玩的demo地址:
这里说一下关键环节的Key获取方式。
1)获取 AGORA_APP_ID和AGORA_APP_CERTIFICATE,链接:声网
注册完送每月1万分钟RTC。

2)Azure SST(ASR) and TTS API keys
注册链接:azure.microsoft.com(如果需要绑定国外信用卡可以使用TB神秘力量)。
3)Open AI Key(神秘力量)
安装完成环境咱们应该可以看到docker里面有四个界面,如果遇到Key问题,声网没办法编译等问题可以跟帖留言~,我有空帮大家解决。
编译完成后,大家可以看到这个界面,并且在3002端口,还可以玩一下。

Rokid是最强的!

第二步:集成Unity并进行相关调试
1、下载声网音频 SDK,下载链接 https://doc.shengwang.cn/doc/rtc/unity/resources

2、创建新项目并导入,我用了2022LTS

允许unity非安全http访问,否则会报错。

3、搜索AppIdInput,并修改对应参数

Appid:为我们的声网Appid;
Token:临时测试可以在声网控制台生成24小时Token,输入到此处,并创建。

Channel Name并对应频道名,我这里用agora_qeudav(可自定义)。
4、搜索AppIdInput,并修改对应BasicAudioCallScene 并打开

5、创建StartAI脚本并找到找到Canvas,挂载脚本到Canvas上(方便就挂了)
TEN Framework提供了8080/Start的端口,所以直接传入即可,参考这里:
https://github.com/TEN-framework/TEN-Agent/tree/main/server
提供了三种端口(用于启动,关闭和ping),传入对应相关参数后接可以开启一个ai加入我们的声网频道,这里写得很明白。

StartAI这里可以下载:

StartAI.cs
这里可以下载脚本。
我们用realtimeapi 所以用这个数据结构:va.openai.v2v。

6、启动调试,需要保证SendAIRequest中的ChannelName 和uid和开启的频道对应,否则ai不会和说话
这里力求用最快方式演示,所以尽量少改动原来的代码。
依次点击以下按钮:
第一步:
修改地区为CN;
第二步:
初始化频道;
第三步:
Join Channel ,这会创建和加入一个对应appid下的频道。

第四步:
复制左侧加入频道后的uid,给右边的startUid当然也可以用代码获取。这里给小白演示:

第五步:
点击StartAI,这是我自己建的,反正在UGUI上,挂上StartAIgo方法即可。

Fin:成功后如下视频链接,可以看到openai实时对话了,介绍了一下AR:
这样就在Unity Editor中集成TEN Framework了,如果要导入自己的应用派生集成相关方法即可!