金融
勤奋的研究人员如何弥合非洲及其他地区的人工智能语言差距
39分钟前
比特币以太币新闻
ChatGPT 和 Google Translate 等人工智能驱动的工具为那些使用这些技术支持的语言的人提供了难以置信的机会。 然而,由于缺乏对其母语的支持,包括非洲在内的南半球数十亿人无法从这些进步中受益。 这种语言差距不仅影响生成式人工智能和翻译服务,还影响自动完成、转录服务、语音助手和社交媒体内容审核等其他工具。 训练数据的稀缺是许多语言(尤其是低资源语言)人工智能工具功能有限的主要原因。
低资源语言的挑战
人工智能工具基于大量训练数据进行操作,而由数十亿个网页组成的 Common Crawl 数据集是训练语言模型的重要来源。 然而,该数据集主要由几种语言主导,其中英语最为突出。 因此,阿姆哈拉语以及其他非洲、美洲和大洋洲语言等语言在 Common Crawl 中所占比例不到 0.1%。 数据的稀缺阻碍了人工智能工具对低资源语言使用者的有效性,包括印地语、阿拉伯语和孟加拉语等主要语言。
这种差异在人工智能训练数据集中不同语言的表示中很明显。 例如,约有 20 万人使用荷兰语,尽管这两种语言的母语相似,但 Common Crawl 中的数据明显多于阿姆哈拉语。 这种趋势不仅限于荷兰语,还扩展到各种欧洲语言,与大多数亚洲和非洲语言相比,这些语言所占比例过高。
克服数据稀缺
为了解决资源匮乏语言缺乏数据的问题,研究人员和初创公司正在自己解决问题。 Lesan 就是一个例子,这是一家专注于为阿姆哈拉语和提格里尼亚语等埃塞俄比亚语言创建机器翻译和语音技术的初创公司。 Lesan 的团队没有依赖大量的在线资源,而是直接与社区合作,利用学生和语言爱好者的热情来收集数据。 该过程包括识别高质量数据集、对其进行数字化和翻译,以及调整原始版本和翻译版本以进行机器学习训练。
非洲初创企业拥抱人工智能技术
Lesan 的方法反映了非洲初创公司为其母语开发人工智能工具的日益增长的趋势。 这些项目表明,可以使用小型的、精选的数据集来构建有用的模型,挑战了单一巨型模型是成功的唯一途径的观念。 非洲研究人员和企业家采取的举措促进了技术的所有权,确保经济利益留在他们的社区内。
全球语言包容性努力
除了非洲之外,世界各地的研究人员都在研究数字足迹较小的语言,例如牙买加方言、加泰罗尼亚语、苏丹语和毛利语。 Ethnologue 对重要语言资源的支持表明机器翻译工具、拼写检查和语音处理可用于阿姆哈拉语等语言。 然而,许多拥有数百万使用者的语言仍然缺乏足够的数字支持,导致数百万人无法使用人工智能工具。
分布式人工智能研究所 (DAIR)、GhanaNLP、Masakhane 和 Hugging Face AI 集体等机构的努力证明了协作和分享见解的力量。 研究人员正在共同努力为他们的语言创建解决方案,使人工智能技术能够被更广泛的语言社区所使用。 与一些科技巨头不同的是,这些举措通过自由共享人工智能模型和知识来提高透明度,使研究人员能够创建特定于语言的解决方案。
人工智能工具的语言差距给数十亿人,特别是南半球国家的人们带来了重大挑战。 低资源语言中的数据稀缺阻碍了人工智能工具的功能,使许多人无法从这些技术中受益。 然而,通过创新方法、协作和分享见解,来自非洲和世界各地的研究人员和初创公司在弥合语言差距和通过人工智能进步为语言社区赋能方面取得了长足进步。 通过优先考虑语言包容性和支持多种语言,人工智能可以成为每个人的变革力量,无论他们使用什么语言。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com