OpenAI与多家出版商达成协议,用新闻文章训练人工智能
近年来,人工智能技术得到了迅猛发展,其中自然语言处理(NLP)领域取得了重大突破。为了提高自然语言处理的准确性和效率,训练大量高质量的自然语言数据集成为关键。然而,训练这样的数据集需要大量的文本数据,这对许多企业和研究机构造成了巨大的挑战。为此,OpenAI提出了一种解决方案——通过与众多出版商合作,获取受版权保护的新闻文章,以此训练其大语言模型。
OpenAI正在与数十家出版商洽谈达成文章授权协议,以获取受版权保护的新闻文章,并用于训练其大语言模型。OpenAI希望通过这种方式,解决训练数据不足的问题,从而提高自然语言处理技术的性能。
根据消息人士透露,OpenAI每年向一些媒体公司提供100万至500万美元的费用,以使用其新闻文章用于训练大型语言模型。虽然这个数目看似不高,但对于一些小型出版商来说,这是一个不小的数目,可能会让他们难以达成交易。不过,OpenAI方面表示,他们正在与许多出版商进行多次谈判和讨论,目前进展顺利。
值得一提的是,OpenAI最近与全球知名的新闻出版巨头施普林格出版集团(Axel Springer)签署了一项多年期许可协议,这是该公司与这类出版商的首次合作。施普林格是一家总部位于德国的跨国大众媒体公司,旗下拥有Business Insider、Politico等多个知名品牌。该交易的财务条款并未公开,但据The Information援引OpenAI两位高管的消息称,交易金额在数千万美元左右。
此外,OpenAI还与美国联合通讯社(AP)达成了一项类似协议,具体金额未知。这些交易对于OpenAI的未来至关重要,因为它正在平衡构建模型所需数据的需求与对数据来源日益严格的审查。
然而,OpenAI在获取受版权保护的新闻文章时,也面临着诸多挑战。一方面,随着各大公司和组织纷纷开展生成式人工智能研究,如何确保数据来源的合法性和保护知识产权成为当务之急。另一方面,由于自然语言处理技术的迅速发展,训练数据的质量也变得越来越重要。如何在遵守版权法规的前提下,获取到高质量的训练数据,成为了OpenAI亟待解决的难题。
为了应对这些挑战,OpenAI采取了一系列措施。首先,它积极与各类出版商展开合作,争取获得更多的受版权保护的新闻文章。其次,OpenAI加大了对数据质量的审查力度,确保训练数据的真实性和可靠性。最后,OpenAI还在探索新的数据收集渠道,以满足其不断增长的数据需求。
总之,OpenAI正通过与出版商合作的方式,获取受版权保护的新闻文章,以训练其大语言模型。虽然这一过程充满了挑战,但OpenAI仍然坚定地走在推动自然语言处理技术发展的道路上。未来,随着生成式人工智能技术的进一步成熟,我们有理由相信,OpenAI将在这一领域取得更加辉煌的成果。