OpenAI新模型测评：满分通过巴西最难入学考试之一,青岛忠进国际货运官网_中南美1级品牌货代_专业国际货运代理30年_提供整箱货代_拼箱货代_巴西达直邮_中巴供应链平台_进出口报关优质服务

OpenAI公司最近发布了名为“OpenAI o1”的新人工智能（AI）大语言模型。根据巴西的测试结果，这一AI模型在巴西航空理工学院（ITA）入学考试的数学测试中获得了满分（10分），并且通过了圣保罗大学（USP）多个专业的住院医师考试。

据忠进了解，o1被称为具有逻辑推理和数学运算能力的AI模型，能够处理更为复杂的问题。目前，该模型正接受全球各地专家和研究人员的测试。

在巴西，企业家维尼修斯·苏亚雷斯（Vinícius Soares）使用了巴西航空理工学院2024年入学考试的数学试卷对o1进行了测试，这一考试一直被视为巴西最难的入学考试之一。最终，o1凭借其解决复杂数学问题的能力取得了满分成绩。

与ChatGPT的快速响应不同，o1需要更多的处理时间来评估现有数据，并寻找不同的方法来得出答案，这一点也在苏亚雷斯的测试实验中得到体现。

苏亚雷斯认为，o1具有改变多个领域发展的潜力。他指出，在教育领域，这一AI模型可以生成新问题并提供解决方案，帮助学生准备高校如航空理工学院的入学考试；在法律领域，o1还可以分析数千个诉讼案例，识别模式和趋势，辅助辩护方找到获胜的最佳策略。

此外，o1在医疗领域的表现同样令人印象深刻。医学教育和数字健康专家马修斯·费雷拉（Matheus Ferreira）使用了2024年圣保罗大学住院医师考试的试题对o1进行了测试。结果显示，即使没有图像分析能力，o1的准确率达到了82%，超过了同样由OpenAI开发的ChatGPT-4模型和美国AI初创企业Anthropic推出的Claude 3.5 Sonnet，后两者的准确率为76%。

值得注意的是，由于o1在处理图像方面存在限制，完全依赖图像分析的问题在本次试验中被排除，但仍包含了其他带有图像的问题。

费雷拉指出，在测试过程中，o1最主要的问题是反应时间较长。相比之下，GPT-4和Claude 3.5几乎可以立即回答问题，而o1在某些情况下需要约100秒的“思考”时间。尽管如此，o1的答案更可信，正确回答了93个问题，而另外两个AI模型仅正确回答了85个。

费雷拉强调，在预防医学专业的测试中，这三个AI模型的表现均不尽人意。他认为，主要原因是这三个模型的训练数据库主要是英文，而预防医学涉及许多区域特定的知识，例如巴西的法律和统一卫生系统（SUS）等问题。

主营业务

全球货代业务

中巴供应链服务平台

关于忠进

新闻中心

忠进分公司

招贤纳士

联系我们