如何使用TEN-Framework,把你的Rokid集成最新最酷的多模态AI应用(一)

撰写:朱逸骁Eason_方披萨

相信许多同学和我一样,作为一个应用开发者,非常想让自己的应用接入AI能力!

Rokid作为一款AR设备也是AI行业最佳实践,我们掌握接入技巧一定会对大家的应用如虎添翼~而TEN是开源社区里第一个真正意义上的实时多模态AI框架。TEN支持高性能实时多模态交互,多语言、多平台,端云结合,大模型灵活搭配和实时代理模态管理等强强功能,现在更加可以接入OpenAI realtime api。

现在把经验毫无保留分享给大家,看完这篇文章,你将收获:

如何用最快流程成功接入TEN Framework,并在Unity Editor中成功测试。


第一步:安装部署TEN Framework环境(需要神秘力量)

具体也可以社区中参考(Elliott)吴彦祖的视频

或参考 Github地址中 How to build TEN Agent locally章节:

https://github.com/ten-framework/ten-agent

以及快速玩的demo地址:

https://agent.theten.ai

这里说一下关键环节的Key获取方式。

1)获取 AGORA_APP_ID和AGORA_APP_CERTIFICATE,链接:声网

注册完送每月1万分钟RTC。

2)Azure SST(ASR) and TTS API keys

注册链接:azure.microsoft.com(如果需要绑定国外信用卡可以使用TB神秘力量)。

3)Open AI Key(神秘力量)

安装完成环境咱们应该可以看到docker里面有四个界面,如果遇到Key问题,声网没办法编译等问题可以跟帖留言~,我有空帮大家解决。

编译完成后,大家可以看到这个界面,并且在3002端口,还可以玩一下。

Rokid是最强的!

第二步:集成Unity并进行相关调试

1、下载声网音频 SDK,下载链接 https://doc.shengwang.cn/doc/rtc/unity/resources

2、创建新项目并导入,我用了2022LTS

允许unity非安全http访问,否则会报错。

3、搜索AppIdInput,并修改对应参数

Appid:为我们的声网Appid;

Token:临时测试可以在声网控制台生成24小时Token,输入到此处,并创建。

Channel Name并对应频道名,我这里用agora_qeudav(可自定义)。

4、搜索AppIdInput,并修改对应BasicAudioCallScene 并打开

5、创建StartAI脚本并找到找到Canvas,挂载脚本到Canvas上(方便就挂了)

TEN Framework提供了8080/Start的端口,所以直接传入即可,参考这里:

https://github.com/TEN-framework/TEN-Agent/tree/main/server

提供了三种端口(用于启动,关闭和ping),传入对应相关参数后接可以开启一个ai加入我们的声网频道,这里写得很明白。

StartAI这里可以下载:

StartAI.cs
这里可以下载脚本。
我们用realtimeapi 所以用这个数据结构:va.openai.v2v。

6、启动调试,需要保证SendAIRequest中的ChannelName 和uid和开启的频道对应,否则ai不会和说话

这里力求用最快方式演示,所以尽量少改动原来的代码。

依次点击以下按钮:

第一步:

修改地区为CN;

第二步:

初始化频道;

第三步:

Join Channel ,这会创建和加入一个对应appid下的频道。

第四步:

复制左侧加入频道后的uid,给右边的startUid当然也可以用代码获取。这里给小白演示:

第五步:

点击StartAI,这是我自己建的,反正在UGUI上,挂上StartAIgo方法即可。

Fin:成功后如下视频链接,可以看到openai实时对话了,介绍了一下AR:

http://t.cn/A63eZwaO 

这样就在Unity Editor中集成TEN Framework了,如果要导入自己的应用派生集成相关方法即可!

注册登录 后评论
    // 作者
    t
    @tenten
    分享TEN和TEN开发者朋友的动向
    • 1
    // 相关帖子
    Coming soon...
    • 1
    如何使用TEN-Framework,把你的Rokid集成最新最酷的多模态AI应用(一)
    tenten