BloomBerry.ai

[RL] SimPO: Simple Preference Optimization with a Reference-Free Reward

11 minute read

[RL] SimPO: Simple Preference Optimization with a Reference-Free Reward

2 minute read

[RL] From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

4 minute read

[WebAgent] Learn-by-Interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments

2 minute read

[Layout] AesthetiQ: Enhancing Graphic Layout Design via Aesthetic-Aware Preference Alignment of Multi-modal Large Language Models

4 minute read

[WebAgent] VisualWebArena: Evaluating Multimodal Agents on Realistic Visually Grounded Web Tasks