FABLE Leaderboard

Evaluating Large Language Models on their ability to perform data flow analysis tasks.
This benchmark measures accuracy across multiple domains and analysis types.
Click on column headers to sort. Hover over the headers for more information.