OpenAI开启调查:GPT-4o及4o-mini模型性能下降

vipkang vipkang 2025-01-20 16:02:43 新闻 阅读: 701
摘要: 石家庄都市网1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。 近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为

石家庄都市网1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。

近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。

实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。

具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。

以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。

实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。

OpenAI开启调查:GPT-4o及4o-mini模型性能下降

其他相关
AI新API服务提速降费解决方案

AI新API服务提速降费解决方案

作者: 站长小白 时间:2025-04-18 阅读: 748
AI新API服务提速降费,通过优化技术降低服务成本,提高用户体验。...
AI驱动AIGC产品未来焦点,2025年引领关注重点

AI驱动AIGC产品未来焦点,2025年引领关注重点

作者: 站长小白 时间:2025-04-18 阅读: 610
AI引领2025年AIGC产品关注焦点,关注点包括AI驱动的自动化生成和智能应用。...
GPU优化提速3.8倍,Stable Diffusion技术突破

GPU优化提速3.8倍,Stable Diffusion技术突破

作者: 站长小白 时间:2025-04-18 阅读: 557
稳定扩散GPU优化提速3.8倍,通过优化提高运行速度。...
谷歌推出Gemini Flash成本暴降惊人

谷歌推出Gemini Flash成本暴降惊人

作者: 站长小白 时间:2025-04-18 阅读: 875
谷歌推出Gemini 2.5 Flash成本暴降高达60%。...
唐兴才解读,三步构建金融大模型应用生产力引擎的实践之道

唐兴才解读,三步构建金融大模型应用生产力引擎的实践之道

作者: 站长小白 时间:2025-04-18 阅读: 537
唐兴才指出,构建金融大模型应用的生产力引擎需要三步,建立强大的数据基础,收集并整合各类金融数据,运用先进的科技手段,如人工智能、机器学习等,对金融数据进行深度分析和挖掘,将分析结果应用于金融业务场景,提升金融服务的智能化水平,这三步是构建金融大模型应用的关键,有助于推动金融业的生产力发展。...
NVIDIA NIM微服务上线,本地部署更便捷,AI快报揭秘新功能

NVIDIA NIM微服务上线,本地部署更便捷,AI快报揭秘新功能

作者: 站长小白 时间:2025-04-17 阅读: 792
NVIDIA推出新的微服务工具,名为NVIDIA NIM,本地部署更加便捷,这一工具旨在帮助用户更轻松地部署和管理AI相关的应用程序和服务,NVIDIA NIM具有微服务架构的特点,支持快速迭代和灵活扩展,有助于提升AI应用的性能和可靠性,这一新服务的上线将为开发者带来更高效的工作流程和更好的用户体验。...

年度爆文