翻譯|行業(yè)資訊|編輯:胡欣星|2025-02-19 14:59:58.310|閱讀 101 次
概述:這篇文章比較了 DeepSeek-R1 與 OpenAI 模型在 Kotlin 編程語言方面的表現(xiàn),評估了它們在代碼生成、問題解答和推理能力上的優(yōu)劣,并提供了相關(guān)基礎(chǔ)
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
隨著 AI 模型的快速發(fā)展,DeepSeek-R1 作為 OpenAI 的有力競爭者正在引起廣泛關(guān)注。那么,這些模型對 Kotlin 的理解程度如何?它們能否生成可靠的代碼,解釋復(fù)雜概念,并協(xié)助調(diào)試呢?
JetBrains Research 團隊針對最新的 AI 模型,包括 DeepSeek-R1、OpenAI o1 和 OpenAI o3-mini,進行了測試。他們采用了 KotlinHumanEval 和一個全新的 Kotlin 問答基準(zhǔn),用以評估這些模型的綜合表現(xiàn),排名并分析了 DeepSeek 模型在實際 Kotlin 問題中的回答能力,幫助開發(fā)者了解這些模型的優(yōu)勢與局限。
KotlinHumanEval 基準(zhǔn)
長期以來,OpenAI 的 HumanEval 基準(zhǔn)一直是衡量 AI 模型編程能力的關(guān)鍵指標(biāo),它通過檢測模型根據(jù)文檔字符串生成函數(shù)并通過單元測試的能力來評分。JetBrains Research 團隊此前推出了 KotlinHumanEval,該基準(zhǔn)測試采用與 HumanEval 相同的測試,但針對的是符合 Kotlin 語言習(xí)慣的代碼。
自發(fā)布以來,各模型在 KotlinHumanEval 上的得分顯著提升。其中,OpenAI 的領(lǐng)先模型成功率達到 91%,創(chuàng)下新高。而開源的 DeepSeek-R1 也表現(xiàn)不俗,能夠完成大部分任務(wù)。以下是各模型在 KotlinHumanEval 基準(zhǔn)上的表現(xiàn):
| 模型名稱 | 成功率(%) |
|---|---|
| OpenAI o1 | 91.93% |
| DeepSeek-R1 | 88.82% |
| OpenAI o1-preview | 88.82% |
| OpenAI o3-mini | 86.96% |
| OpenAI o1-mini | 86.34% |
| Google Gemini 2.0 Flash | 83.23% |
| Anthropic Claude 3.5 Sonnet | 80.12% |
| OpenAI GPT-4o | 80.12% |
| OpenAI GPT-4o mini | 77.02% |
新興基準(zhǔn)測試
除 KotlinHumanEval 外,近年來還出現(xiàn)了一些新的多語言評測基準(zhǔn)。例如,McEval 涵蓋了 40 種編程語言,包括 Kotlin,并提供解釋示例;M2rc-Eval 也聲稱支持 Kotlin,但目前尚未公開相關(guān)數(shù)據(jù)集。
盡管現(xiàn)有基準(zhǔn)主要考察代碼生成能力,但 JetBrains Research 發(fā)現(xiàn),開發(fā)者在代碼生成之外,還常用 AI 工具來解釋代碼,例如理解錯誤原因或分析代碼含義。因此,僅靠傳統(tǒng)基準(zhǔn)無法全面評估模型在 Kotlin 領(lǐng)域的表現(xiàn)。
Kotlin_QA 問答基準(zhǔn)
為彌補這一不足,JetBrains Research 推出了 Kotlin_QA 基準(zhǔn)。他們收集了 47 個 Kotlin 相關(guān)問題,這些問題由開發(fā)者宣傳大使準(zhǔn)備,或來自 Kotlin 公開 Slack 頻道。每個問題均由 Kotlin 專家給出參考答案,然后邀請不同的 AI 模型作答。
以下為 Slack 頻道中一位開發(fā)者提出的示例問題:
“我有一個 Kotlin 服務(wù)端應(yīng)用程序運行在 k8s 的 pod 中。在某些情況下,k8s 會發(fā)送 SIGTERM 或 SIGKILL 信號終止我的應(yīng)用程序。在 Kotlin 中,有沒有比 Runtime.getRuntime().addShutdownHook(myShutdownHook) 更優(yōu)雅的關(guān)閉方式?”
開發(fā)者可以嘗試自己回答,然后對比 AI 模型的答案。
AI 模型回答質(zhì)量評估
JetBrains Research 采用 LLM-as-a-judge 方法評估模型回答質(zhì)量,即用 AI 模型充當(dāng)評委,對比各模型的回答與專家答案,評分范圍為 1 到 10。
由于常見 LLM 模型的評判結(jié)果可能不一致,團隊特別篩選了評審模型,考察標(biāo)準(zhǔn)包括:
最終測試表明,GPT-4o(2024 年 6 月 8 日版本)是最可靠的評審模型,它的評分與人類評估高度一致,并能有效識別低質(zhì)量回答。
Kotlin_QA 排行榜
| 模型名稱 | 平均評分 |
|---|---|
| DeepSeek-R1 | 8.79 |
| OpenAI o3-mini | 8.70 |
| OpenAI o1 | 8.62 |
| OpenAI o1-preview | 8.60 |
| OpenAI o1-mini | 8.40 |
| OpenAI GPT-4o (2024-11-20 版本) | 8.40 |
| Anthropic Claude 3.5 Sonnet | 8.38 |
整體來看,最新的 OpenAI 模型和 DeepSeek-R1 在 Kotlin 領(lǐng)域表現(xiàn)優(yōu)異。DeepSeek-R1 在開放性問題和推理能力方面略勝一籌。然而,所有模型仍存在知識不完整、信息滯后以及常見 LLM 錯誤(如計數(shù)錯誤、上下文丟失)等問題。
如果想了解更多 JetbrainsIDE 的強大功能,聯(lián)系在線客服下載完整版試用。
歡迎下載|體驗更多Jetbrains產(chǎn)品
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn