DAX LLM Benchmark

Which LLM is best at DAX?
DAXBench tests how models understand, write, and reason about DAX and Power BI.
Methodology designed by Maxim Anatsko.

Last updated: Jun 10, 2026

127 models · 30 tasks · Initial Release

Model Leaderboard

Ranked by score

	Model				Tasks
1	Gemini 3.1 Flash Lite PreviewHIGH Google	97.4%	96.7%	100.0%	29/30
2	Claude Fable 5 Anthropic	96.9%	96.7%	100.0%	29/30
3	GPT-5.3 Chat OpenAI	96.9%	96.7%	100.0%	29/30
4	Qwen3.5 Plus 2026-02-15MED Qwen	96.8%	96.7%	100.0%	29/30
5	GLM 5 Z.AI	96.2%	96.7%	100.0%	29/30
6	Qwen3.7 Max Qwen	94.5%	93.3%	100.0%	28/30
7	Gemini 3.1 Pro PreviewHIGH Google	94.5%	93.3%	100.0%	28/30
8	Gemma 4 31B Google	94.5%	93.3%	100.0%	28/30
9	Qwen3.6 Plus Preview (free) Qwen	93.9%	93.3%	100.0%	28/30
10	Qwen3.5 397B A17B Qwen	93.9%	93.3%	100.0%	28/30
11	GPT-5.4 Mini OpenAI	93.3%	93.3%	100.0%	28/30
12	GPT-5.5 OpenAI	92.1%	90.0%	96.7%	27/30
13	Qwen3.6 Max Preview Qwen	91.5%	90.0%	100.0%	27/30
14	Qwen3.5-FlashMED Qwen	90.8%	90.0%	100.0%	27/30
15	GLM 5.1 Z.AI	90.3%	90.0%	100.0%	27/30
16	Qwen3.6 Plus (free) Qwen	89.7%	90.0%	100.0%	27/30
17	GLM 5V Turbo Z.AI	89.1%	86.7%	100.0%	26/30
18	GPT-5.3-CodexHIGH OpenAI	88.6%	86.7%	100.0%	26/30
19	gpt-oss-120b OpenAI	88.0%	86.7%	100.0%	26/30
20	Claude Sonnet 4.6MED Anthropic	87.4%	86.7%	100.0%	26/30
21	Claude Sonnet 4 Anthropic	87.4%	86.7%	100.0%	26/30
22	KAT-Coder-Pro V2 Kwaipilot	87.2%	86.7%	100.0%	26/30
23	GLM 5 Turbo Z.AI	86.7%	86.7%	100.0%	26/30
24	Gemini 2.5 Flash Preview 09-2025 Google	86.2%	83.3%	100.0%	25/30
25	GPT-5.1-Codex-Max OpenAI	85.6%	83.3%	100.0%	25/30
26	Claude Opus 4.8 Anthropic	85.4%	83.3%	100.0%	25/30
27	Gemini 3 Pro Preview Google	84.9%	83.3%	100.0%	25/30
28	Claude Sonnet 4.5 Anthropic	84.4%	83.3%	100.0%	25/30
29	o3 OpenAI	84.4%	83.3%	100.0%	25/30
30	Gemini 3.1 Flash Lite Google	84.4%	80.0%	100.0%	24/30
31	Kimi K2 Thinking Moonshot AI	84.4%	83.3%	100.0%	25/30
32	GPT-5.4HIGH OpenAI	83.8%	80.0%	100.0%	24/30
33	Grok 4.3 xAI	83.7%	83.3%	100.0%	25/30
34	Grok 4.20 BetaHIGH xAI	83.0%	83.3%	100.0%	25/30
35	Claude Opus 4.5 Anthropic	82.7%	80.0%	100.0%	24/30
36	Grok 4 xAI	82.7%	80.0%	100.0%	24/30
37	Claude Opus 4.6 Anthropic	82.0%	80.0%	100.0%	24/30
38	Gemini 3 Flash Preview Google	81.4%	76.7%	100.0%	23/30
39	GPT-5.2 OpenAI	81.4%	80.0%	100.0%	24/30
40	R1 DeepSeek	81.3%	80.0%	100.0%	24/30
41	Grok Build 0.1 xAI	81.3%	80.0%	100.0%	24/30
42	DeepSeek V4 Pro DeepSeek	80.8%	80.0%	93.3%	24/30
43	Aurora Alpha Openrouter	80.6%	80.0%	100.0%	24/30
44	GPT-5.2 Chat OpenAI	80.1%	80.0%	100.0%	24/30
45	Qwen3 Max Thinking Qwen	80.1%	80.0%	100.0%	24/30
46	Gemini 2.5 Flash Google	79.6%	76.7%	100.0%	23/30
47	Kimi K2.6 Moonshot AI	78.7%	76.7%	96.7%	23/30
48	DeepSeek V3.2 Speciale DeepSeek	78.3%	76.7%	100.0%	23/30
49	DeepSeek V3.1 DeepSeek	78.3%	76.7%	100.0%	23/30
50	Grok 4.20 Multi-Agent BetaHIGH xAI	77.9%	76.7%	100.0%	23/30

About This Benchmark

Evaluation Method

Models are tested against DAX tasks of varying complexity using the Contoso sample dataset. Responses are evaluated for syntax correctness and output accuracy.

Scoring System

Harder tasks are worth more points. Correct solutions also earn bonus points for following DAX best practices, writing efficient code, and producing clear, readable output.

Task Categories

Tasks cover aggregation, time intelligence, filtering, calculations, iterators, and context transitions across basic, intermediate, and advanced levels.

Browse by Category

Browse All Tasks

DAX LLM Benchmark

Model Leaderboard

Changelog

About This Benchmark

Evaluation Method

Scoring System

Task Categories

Browse by Category

Aggregation

Time Intelligence

Filtering

Calculation

Table Manipulation

Iterator

Context Transition