在语言的浩瀚海洋中,摩洛哥阿拉伯方言(Darija)恰如璀璨的珍珠,虽然其独特性备受青睐,却常常被现代标准阿拉伯语(MSA)所掩盖。为了让这颗珍珠闪耀光芒,我们很高兴地介绍 Atlas-Chat,这是专为摩洛哥阿拉伯方言开发的首个大型语言模型(LLM)系列。该系列不仅填补了方言与现代标准阿拉伯语之间的鸿沟,还为低资源语言的模型开发开辟了新天地。
📊 数据集构建:从零开始的壮举
Atlas-Chat 的成功依赖于精心构建的 Darija-SFT-Mixture 数据集。这个数据集汇集了现有的 Darija 语言资源,并通过手动和合成方式创造了新数据集。此外,我们还进行了严格的质量控制,确保从英语翻译而来的指令准确无误。这一切的努力,最终形成了 458,000 个指令样本,为模型的训练奠定了坚实的基础。