丰年经继拇,日韩日日操,国产精品三级五区

OpenAI 與 DeepSeek：誰更懂 Kotlin？

翻譯|行業(yè)資訊|編輯：胡欣星|2025-02-19 14:59:58.310|閱讀 101 次

概述：這篇文章比較了 DeepSeek-R1 與 OpenAI 模型在 Kotlin 編程語言方面的表現(xiàn)，評估了它們在代碼生成、問題解答和推理能力上的優(yōu)劣，并提供了相關(guān)基礎(chǔ)

隨著 AI 模型的快速發(fā)展，DeepSeek-R1 作為 OpenAI 的有力競爭者正在引起廣泛關(guān)注。那么，這些模型對 Kotlin 的理解程度如何？它們能否生成可靠的代碼，解釋復(fù)雜概念，并協(xié)助調(diào)試呢？

獲取JetBrains IDE新版下載

JetBrains Research 團隊針對最新的 AI 模型，包括 DeepSeek-R1、OpenAI o1 和 OpenAI o3-mini，進行了測試。他們采用了 KotlinHumanEval 和一個全新的 Kotlin 問答基準(zhǔn)，用以評估這些模型的綜合表現(xiàn)，排名并分析了 DeepSeek 模型在實際 Kotlin 問題中的回答能力，幫助開發(fā)者了解這些模型的優(yōu)勢與局限。

AI 模型 Kotlin 能力評測

KotlinHumanEval 基準(zhǔn)

長期以來，OpenAI 的 HumanEval 基準(zhǔn)一直是衡量 AI 模型編程能力的關(guān)鍵指標(biāo)，它通過檢測模型根據(jù)文檔字符串生成函數(shù)并通過單元測試的能力來評分。JetBrains Research 團隊此前推出了 KotlinHumanEval，該基準(zhǔn)測試采用與 HumanEval 相同的測試，但針對的是符合 Kotlin 語言習(xí)慣的代碼。

自發(fā)布以來，各模型在 KotlinHumanEval 上的得分顯著提升。其中，OpenAI 的領(lǐng)先模型成功率達到 91%，創(chuàng)下新高。而開源的 DeepSeek-R1 也表現(xiàn)不俗，能夠完成大部分任務(wù)。以下是各模型在 KotlinHumanEval 基準(zhǔn)上的表現(xiàn)：

模型名稱	成功率（%）
OpenAI o1	91.93%
DeepSeek-R1	88.82%
OpenAI o1-preview	88.82%
OpenAI o3-mini	86.96%
OpenAI o1-mini	86.34%
Google Gemini 2.0 Flash	83.23%
Anthropic Claude 3.5 Sonnet	80.12%
OpenAI GPT-4o	80.12%
OpenAI GPT-4o mini	77.02%

新興基準(zhǔn)測試

除 KotlinHumanEval 外，近年來還出現(xiàn)了一些新的多語言評測基準(zhǔn)。例如，McEval 涵蓋了 40 種編程語言，包括 Kotlin，并提供解釋示例；M2rc-Eval 也聲稱支持 Kotlin，但目前尚未公開相關(guān)數(shù)據(jù)集。

盡管現(xiàn)有基準(zhǔn)主要考察代碼生成能力，但 JetBrains Research 發(fā)現(xiàn)，開發(fā)者在代碼生成之外，還常用 AI 工具來解釋代碼，例如理解錯誤原因或分析代碼含義。因此，僅靠傳統(tǒng)基準(zhǔn)無法全面評估模型在 Kotlin 領(lǐng)域的表現(xiàn)。

Kotlin_QA 問答基準(zhǔn)

為彌補這一不足，JetBrains Research 推出了 Kotlin_QA 基準(zhǔn)。他們收集了 47 個 Kotlin 相關(guān)問題，這些問題由開發(fā)者宣傳大使準(zhǔn)備，或來自 Kotlin 公開 Slack 頻道。每個問題均由 Kotlin 專家給出參考答案，然后邀請不同的 AI 模型作答。

以下為 Slack 頻道中一位開發(fā)者提出的示例問題：

“我有一個 Kotlin 服務(wù)端應(yīng)用程序運行在 k8s 的 pod 中。在某些情況下，k8s 會發(fā)送 SIGTERM 或 SIGKILL 信號終止我的應(yīng)用程序。在 Kotlin 中，有沒有比 Runtime.getRuntime().addShutdownHook(myShutdownHook) 更優(yōu)雅的關(guān)閉方式？”

開發(fā)者可以嘗試自己回答，然后對比 AI 模型的答案。

AI 模型回答質(zhì)量評估

JetBrains Research 采用 LLM-as-a-judge 方法評估模型回答質(zhì)量，即用 AI 模型充當(dāng)評委，對比各模型的回答與專家答案，評分范圍為 1 到 10。

由于常見 LLM 模型的評判結(jié)果可能不一致，團隊特別篩選了評審模型，考察標(biāo)準(zhǔn)包括：

能識別無意義回答，例如隨機字符串；
評分與人類評估 OpenAI o1-preview 回答的結(jié)果一致性；
能區(qū)分簡單模型與綜合能力強的模型。

評判模型選擇過程

最終測試表明，GPT-4o（2024 年 6 月 8 日版本）是最可靠的評審模型，它的評分與人類評估高度一致，并能有效識別低質(zhì)量回答。

Kotlin_QA 排行榜

模型名稱	平均評分
DeepSeek-R1	8.79
OpenAI o3-mini	8.70
OpenAI o1	8.62
OpenAI o1-preview	8.60
OpenAI o1-mini	8.40
OpenAI GPT-4o (2024-11-20 版本)	8.40
Anthropic Claude 3.5 Sonnet	8.38

整體來看，最新的 OpenAI 模型和 DeepSeek-R1 在 Kotlin 領(lǐng)域表現(xiàn)優(yōu)異。DeepSeek-R1 在開放性問題和推理能力方面略勝一籌。然而，所有模型仍存在知識不完整、信息滯后以及常見 LLM 錯誤（如計數(shù)錯誤、上下文丟失）等問題。

如果想了解更多 JetbrainsIDE 的強大功能，聯(lián)系在線客服下載完整版試用。

歡迎下載|體驗更多Jetbrains產(chǎn)品 

獲取更多廠商信息 或加入Jetbrains技術(shù)交流群（QQ）：786598704

標(biāo)簽：

本站文章除注明轉(zhuǎn)載外，均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載，但請務(wù)必注明出處、不得修改原文相關(guān)鏈接，如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn

上一篇：3D Web輕量化引擎HOOPS Communicator如何賦能航空航天制造？下一篇：汽車零配件發(fā)動機制造行業(yè)產(chǎn)線級MES系統(tǒng)功能介紹

相關(guān)產(chǎn)品

軟件

產(chǎn)品功能：IDE集成開發(fā)環(huán)境

源碼：非開源

產(chǎn)品編號：12992

當(dāng)前版本：v2025.2 [銷售以商家最新版為準(zhǔn)，如需其他版本，請來電咨詢]

開發(fā) 商： JetBrains

正式授權(quán)

">IntelliJ IDEA

IntelliJ在業(yè)界被公認為優(yōu)秀的Java開發(fā)平臺之一，在智能代碼助手、代碼自動提示、重構(gòu)、J2EE支持、Ant、JUnit、CVS整合、代碼審查、創(chuàng)新的GUI設(shè)計等方面表現(xiàn)突出,并支持基于Android平臺的程序開發(fā)。

軟件

產(chǎn)品功能：IDE集成開發(fā)環(huán)境

源碼：非開源

產(chǎn)品編號：12998

當(dāng)前版本：v2025.2 [銷售以商家最新版為準(zhǔn)，如需其他版本，請來電咨詢]

開發(fā) 商： JetBrains

正式授權(quán)

">PyCharm

PyCharm是一種提高Python語言開發(fā)效率的IDE

軟件

產(chǎn)品功能：IDE集成開發(fā)環(huán)境

源碼：非開源