首页 / 新闻中心 / 我在南美

OpenAI公司最近发布了名为“OpenAI o1”的新人工智能(AI)大语言模型。根据巴西的测试结果,这一AI模型在巴西航空理工学院(ITA)入学考试的数学测试中获得了满分(10分),并且通过了圣保罗大学(USP)多个专业的住院医师考试。

据忠进了解,o1被称为具有逻辑推理和数学运算能力的AI模型,能够处理更为复杂的问题。目前,该模型正接受全球各地专家和研究人员的测试。

在巴西,企业家维尼修斯·苏亚雷斯(Vinícius Soares)使用了巴西航空理工学院2024年入学考试的数学试卷对o1进行了测试,这一考试一直被视为巴西最难的入学考试之一。最终,o1凭借其解决复杂数学问题的能力取得了满分成绩。

与ChatGPT的快速响应不同,o1需要更多的处理时间来评估现有数据,并寻找不同的方法来得出答案,这一点也在苏亚雷斯的测试实验中得到体现。

苏亚雷斯认为,o1具有改变多个领域发展的潜力。他指出,在教育领域,这一AI模型可以生成新问题并提供解决方案,帮助学生准备高校如航空理工学院的入学考试;在法律领域,o1还可以分析数千个诉讼案例,识别模式和趋势,辅助辩护方找到获胜的最佳策略。

此外,o1在医疗领域的表现同样令人印象深刻。医学教育和数字健康专家马修斯·费雷拉(Matheus Ferreira)使用了2024年圣保罗大学住院医师考试的试题对o1进行了测试。结果显示,即使没有图像分析能力,o1的准确率达到了82%,超过了同样由OpenAI开发的ChatGPT-4模型和美国AI初创企业Anthropic推出的Claude 3.5 Sonnet,后两者的准确率为76%。

值得注意的是,由于o1在处理图像方面存在限制,完全依赖图像分析的问题在本次试验中被排除,但仍包含了其他带有图像的问题。

费雷拉指出,在测试过程中,o1最主要的问题是反应时间较长。相比之下,GPT-4和Claude 3.5几乎可以立即回答问题,而o1在某些情况下需要约100秒的“思考”时间。尽管如此,o1的答案更可信,正确回答了93个问题,而另外两个AI模型仅正确回答了85个。

费雷拉强调,在预防医学专业的测试中,这三个AI模型的表现均不尽人意。他认为,主要原因是这三个模型的训练数据库主要是英文,而预防医学涉及许多区域特定的知识,例如巴西的法律和统一卫生系统(SUS)等问题。

返回新闻列表
相关文章推荐
巴西达物流查询

中国——巴西全程实时轨迹跟踪

青岛忠进国际货运代理有限公司
联系忠进