Для нахождения минимума этой функции необходимо приравнять к нулю ее производные по
Решая ее, находим
4. Если точка удовлетворяет неравенствам, приведенным в первом пункте процедуры, то расстояние от нее до точки
Отметим, что в ходе процедуры число отмеченных последовательностей соседних индексов не возрастает. Некоторые последовательности могут сливаться, но новые возникать не могут. После нахождения проекции можно записать оценку:
Обозначим через
Таким образом, построение оценки по интерпретатору сводится к следующей процедуре.
1. Определяем множество допустимых точек, то есть таких точек в пространстве выходных сигналов, которые интерпретатор ответа будет интерпретировать как правильный ответ со стопроцентным уровнем уверенности.
2. Находим проекцию выданной сетью точки на это множество. Проекцией является ближайшая точка из множества.
3. Записываем оценку как расстояние от точки, выданной сетью, до ее проекции на множество допустимых точек. Оценка обучающего множества. Вес примера
В предыдущем разделе был рассмотрен ряд оценок, позволяющих оценить решение сетью конкретного примера. Однако, ситуация, когда сеть хотят обучить решению только одного примера, достаточно редка. Обычно сеть должна научиться решать все примеры обучающего множества. Ряд алгоритмов обучения, которые будут рассматриваться в главе «Учитель», требуют возможности обучать сеть решению всех примеров одновременно и, соответственно, оценивать решение сетью всех примеров обучающего множества. Как уже отмечалось, обучение нейронной сети — это процесс минимизации в пространстве обучаемых параметров функции оценки. Большинство алгоритмов обучения используют способность нейронных сетей быстро вычислять вектор градиента функции оценки по обучаемым параметрам. Обозначим оценку отдельного примера через
Таким образом, используя способность сети вычислять градиент функции оценки решения одного примера, можно получить градиент функции оценки всего обучающего множества.
Обучение по всему обучающему множеству позволяет задействовать дополнительные механизмы ускорения обучения. Большинство этих механизмов будет рассмотрено в главе «Учитель». В этом разделе будет рассмотрен только один из них — использование весов примеров. Использование весов примеров может быть вызвано одной из следующих причин.
Один из примеров плохо обучается.
Число примеров разных классов в обучающем множестве сильно отличаются друг от друга.
Примеры в обучающем множестве имеют различную достоверность.
Рассмотрим первую причину — пример плохо обучается. Под «плохо обучается» будем понимать медленное снижение оценки данного примера по отношению к снижению оценки по обучающему множеству. Для того чтобы ускорить обучение данного примера, ему можно приписать вес, больший, чем у остальных примеров. При этом оценка по обучающему множеству и ее градиент можно записать в следующем виде:
В случае различной достоверности примеров в обучающем множестве функция взвешенных примеров не применима. Действительно, если известно, что достоверность ответа в