塞浦路斯希腊语使用者可能很快就能被语音激活系统准确理解,这些系统以往常难以识别该岛方言。这得益于一个三人团队开发的突破性语音转文本AI模型。
伊戈尔·阿基莫夫(Igor Akimov)——一位外资公司的AI产品经理——联合两名实习生侯赛因·哈德拉(Hussein Khadra)和尼基塔·马尔科夫(Nikita Markov)共同攻克技术难题。两位实习生分别来自尼科西亚大学和中兰开夏大学(UCLan),他们致力于解决现有技术无法正确识别当地方言的问题。
该团队创建了专为塞浦路斯希腊语优化的自动语音识别系统。用户通过麦克风输入语音后,系统将其精准转换为书面文本,该技术可无缝应用于AI语音代理、翻译服务及自动电话支持系统。
该技术在多领域展现广阔前景:在医疗健康领域,系统能自动转录患者语音(尤其针对老年人群体),并直接输入医疗系统免去手动录入;商业场景中,AI语音代理可自然响应塞浦路斯客户;教育领域则通过数字化岛内音频档案,助力保护方言文化传承。
团队的核心目标是探索数据匮乏语言的处理方法,此模式有望全球推广。阿基莫夫坦言:"过程充满挑战,我们曾低估复杂性,历经多次波折。"团队初期寻求研究者协助时遭遇数据遗失、高额费用或直接拒绝。尽管Meta已收集1600种语言数据,但塞浦路斯语音样本为零。
"我们从零起步,系统收集了电视节目、广播电台、播客及书籍中的所有可用塞浦路斯音频,"阿基莫夫表示,"逐步构建了史上最大规模的塞浦路斯希腊语语音数据库。"AI训练分阶段进行:首阶段让系统学习日常方言的发音节奏与特征;次阶段输入新闻广播等专业语音提升精度;同时引入KenLM阅读助手优化词汇预测准确性。
团队搭建了母语者校正平台,将用户反馈持续注入训练系统,使识别准确度随时间提升。值得一提的是,整个项目仅耗资150美元,依托创新方法与云技术实现高效运作。
阿基莫夫强调:"高质量转录语音尚不足数小时,虽未达世界顶尖水平,但目标明确可行。目前这是个等待数据完善的技术验证模型。"团队已积累约300小时方言数据,呼吁公众参与验证:仅需15分钟在项目网站校对转录内容,即可助力构建顶尖语音识别模型,甚至开发纯正塞浦路斯希腊语的文本转语音系统。
"每10-15分钟的贡献都至关重要,"阿基莫夫呼吁,"我们期待每位塞浦路斯人都能以本地方言自如交流,且被技术完全理解。"
【全文结束】


