每周分享 01 期--- AI 通话技能
首先我们来说说 AI 网上的一些名词解释大家可以先了解一下
语音识别(ASR)
语音识别(Automatic Speech Recognition),是一种将人的语音转换为文本的技术,被誉为“机器的耳朵”。在人机交互对话过程中,机器通过识别和理解把用户的语音输入信号转化为文本或命令,进而给出反馈。
自然语言理解(NLU)
自然语言理解(Natural Language Understanding),也称语义理解,是将非结构化或半结构化的自然语言文本转化为计算机可深层处理的结构化信息,主要实现将用户的语句“翻译”成相应的机器人语言,并根据这些指令做后续操作。
语音合成(TTS)
语音合成又称文语转换(Text to Speech)技术,即“从文本到语音”。它是人机对话的一部分,让机器能够说话,可以理解为“机器的嘴巴”
这期分享 AI 中通话技能这块
一、详细说明
1.AI 通话可实现正常拨打电话流程
2.可通过人名、号码、黄页自动匹配拨打电话
3.多个联系人,AI 通话技能,进入多轮对话拨打电话
4.用户可选择拨打和取消拨打
5.针对难以识别的姓名通过技术分析解决此问题
二、姓名匹配问题:
1.完全识别,直接拨打
2.识另近似结果,通过模糊匹配进行拨打
比如:打电话给王志刚 —识别到—> 打电话给王子干
解决方式: 针对 zh/ch/sh/ang/eng/ing 做模糊匹配
王志刚 —> wang zhi gang —> wan zi gan
王子干 —> wang zi gan —> wan zi gan
3.识别到问部分结果
比如:打电话给刘海良,识别到刘海,或者海量都会拨打刘海良的电话
技术上的实现方式是:
当搜索“刘海” 没有结果时,再次搜索,不过把条件是否相等 修改成 是否包含。
这种方式会产生的问题是,如果通讯录存在多个“刘海”开头的联系人,得到的结果会不太精确。不过因为已经有了第一轮的筛选,会避免这些问题出现的概率。
同时在第二轮的结果中可以增加限制,当结果大于“三个”或者“五个”则不显示通讯录查询结果。
4.完成不匹配:完全识别不对情况下,暂时技术上还没有很好的解决方式
三、黄页/归属地数据源的支持
1.打电话给中国移动等像这种就是黄页功能
2.电话归属地功能,主要是在 AI 对话界面的信息展示
四、iOS 打电话系统弹窗问题
1.技术上是需要蓝牙设备辅助。App 通过 ble 发送号码到蓝牙设备,蓝牙设备通过经典蓝牙建立 PBAP 链接拨打电话,只要设备蓝牙有这个模块是可以解决此问题
五、通讯录是否上传
通讯录比较隐私很多人是不愿意上传的,解决方i法,可以在上传时提示用户只是用做识别匹配不上传号,或者用户可自行选择上传某一个部分联系人
六、应用层通讯录权限问题
看 APP 的类型吧,如果 APP 属性很明显可以在进入 APP 就提示用户获取权限,如不明显,则在使用此功能时再提示获取权限
七、多类型通话
当应用存在的通话服务不止 4G 通话,该如何识别区分用户希望发起的通话类型,比如:4G 通话、音视频通话、虚拟网络电话、合家固话等类型
需要服务端支持,判断到相应类型的通话,给应用层返回参数,应用层拿到做相关处理。
小结
1.是否能直接拨打联系人不需要再次点击是否拨打取决于蓝牙模块功能
2.ASR 识别不准确时是否能优化,目前大多情况是先识别错的文本再跳到正确文本
3.多电话类型:4G 通话、音视频通话、虚拟网络电话、合家固话等类型
- 4.实体识别:指从文本中识别实体信息;
- 5.实体消歧:指消除指定实体的歧义;
- 6.关系抽取:指获取两个实体之间的语义关系;
- 7.事件抽取:指从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出
8.AI 识别率问题,多语音,多方言是否可识别,目前这块做的比较好的是科大讯飞
Powered by Froala Editor
大牛,别默默的看了,快登录帮我点评一下吧!:)
登录 立即注册