语言模型
Posted: Mon Mar 17, 2025 5:44 am
房间里的大象:美国总统乔·拜登的国家安全顾问杰克·沙利文表示,为了让盟友团结起来,美国必须解决围绕新技术的隐私问题。美国和欧盟在如何处理消费者数据的问题上发生了冲突,欧盟最高法院推翻了一项跨大西洋数据共享协议,因为担心欧洲数据无法避免被监视。沙利文表示,他不认为隐私会阻止美国与盟友在人工智能方面合作。相反:“我实际上认为,我们可以在该领域进行创新并制定标准,这将使我们比那些完全粉碎隐私概念的社会更具优势。世界上绝大多数人实际上还没有准备好接受这样一种未来愿景,即你完全没有隐私。没有信任。没有安全……大数据归政府所有,”他说。
技术解决方案?沙利文建议,解决方案可能是使用新的尖端技术,例如隐私保护机器学习算法,该算法在处理数据时不会泄露个人信息。例如,研究人员正在试验“合成数据”,这些数据会基于真实数据创建“假”数据集。“美国对‘民主价值观’和人工智能的承诺的关键测试之一是大数据。美国能否找到一种方法来最大限度地发挥大数据的优势并保护隐私?有技术方 爱尔兰赌博数据 法,但它们需要独立的监督和评估,”总部位于华盛顿特区的非营利组织人工智能和数字政策中心的马克·罗滕伯格说。
语言即政治:巴塞罗那超级计算中心的西班牙研究人员利用迄今为止最大的西班牙语语料库训练了一个大型语言模型。研究人员向该模型输入了西班牙国家图书馆在线收集的 570 GB 西班牙语文本。
发生了什么:西班牙国家图书馆每年一次“抓取”或索引所有带有 .es 域名的网站。该图书馆还根据艺术、女权主义和政治等主题以及可能与西班牙社会相关的事件抓取互联网。巴塞罗那超级计算中心的模型通常优于其他现有的西班牙语模型,研究人员计划将他们的数据集与其他数据集结合起来。
重要性:尽管世界上以西班牙语为母语的人数多于以英语为母语的人数,但西班牙语 AI 模型远远落后于以英语和中文为母语的 AI 模型。西班牙正试图将自己定位为西班牙语世界 AI 开发的领导者。通过特定于西班牙语的活动训练 AI 模型,研究人员还将能够将西班牙文化和思维融入 AI。西班牙有近 5 亿以西班牙语为母语的人士,因此创建西班牙语自然语言处理工具是一个巨大的赚钱机会。
技术解决方案?沙利文建议,解决方案可能是使用新的尖端技术,例如隐私保护机器学习算法,该算法在处理数据时不会泄露个人信息。例如,研究人员正在试验“合成数据”,这些数据会基于真实数据创建“假”数据集。“美国对‘民主价值观’和人工智能的承诺的关键测试之一是大数据。美国能否找到一种方法来最大限度地发挥大数据的优势并保护隐私?有技术方 爱尔兰赌博数据 法,但它们需要独立的监督和评估,”总部位于华盛顿特区的非营利组织人工智能和数字政策中心的马克·罗滕伯格说。
语言即政治:巴塞罗那超级计算中心的西班牙研究人员利用迄今为止最大的西班牙语语料库训练了一个大型语言模型。研究人员向该模型输入了西班牙国家图书馆在线收集的 570 GB 西班牙语文本。
发生了什么:西班牙国家图书馆每年一次“抓取”或索引所有带有 .es 域名的网站。该图书馆还根据艺术、女权主义和政治等主题以及可能与西班牙社会相关的事件抓取互联网。巴塞罗那超级计算中心的模型通常优于其他现有的西班牙语模型,研究人员计划将他们的数据集与其他数据集结合起来。
重要性:尽管世界上以西班牙语为母语的人数多于以英语为母语的人数,但西班牙语 AI 模型远远落后于以英语和中文为母语的 AI 模型。西班牙正试图将自己定位为西班牙语世界 AI 开发的领导者。通过特定于西班牙语的活动训练 AI 模型,研究人员还将能够将西班牙文化和思维融入 AI。西班牙有近 5 亿以西班牙语为母语的人士,因此创建西班牙语自然语言处理工具是一个巨大的赚钱机会。