[1]

L. Zhu, F. Guo, G. Cai, and Y. Ma, “Structured Preference Modeling for Reinforcement Learning-Based Fine-Tuning of Large Models”, JCTS, vol. 4, no. 4, Apr. 2025.