Структурированный блокнот
Машинное обучение (Machine Learning, обучающиеся алгоритмы)
→
Обучение с учителем (Supervised learning)
→
Sequence models
→
Стратегии обучения LLM
→
Side by side (или Reinforcement Learning from Human Feedback)
К одному вопросу готовим несколько ответов (от разных моделей или людей) включая ответ данной модели. Люди оценивают, какой ответ лучше. Обучаем, чтобы выигрывать в таких сравнениях.
Поиск по записям:
только в текущем разделе.