Структурированный блокнот   
 Машинное обучение (Machine Learning, обучающиеся алгоритмы) →  Обучение с учителем (Supervised learning) →  Sequence models →  Стратегии обучения LLM →  

Side by side (или Reinforcement Learning from Human Feedback)

К одному вопросу готовим несколько ответов (от разных моделей или людей) включая ответ данной модели. Люди оценивают, какой ответ лучше. Обучаем, чтобы выигрывать в таких сравнениях.
Поиск по записям: только в текущем разделе.