¿Cómo son capaces las neuronas en capas más profundas de tomar decisiones más complejas que las neuronas en capas más superficiales / anteriores?

2016-03-31 machine-learning neural-network deep-learning perceptron

Soy nuevo en ML y estoy leyendo el libro en línea en http://neuralnetworksanddeeplearning.com .

En el primer capítulo, el autor describe un solo perceptrón utilizando un ejemplo del Cheese Festival. Básicamente, ilustra un ejemplo de un perceptrón tratando de decidir si ir o no a un festival de queso el próximo fin de semana. El perceptrón tiene 3 entradas (un factor meteorológico, un factor social y un factor de transporte). Y aunque entiendo completamente el 100% del ejemplo del "Festival del queso" del autor para un solo perceptrón , no entiendo la siguiente conclusión (aparentemente no segregada) que él dibuja, donde desarrolla el ejemplo para contener múltiples perceptrones organizados en 2 capas :

"¿Qué pasa con los perceptrones en la segunda capa? Cada uno de esos perceptrones está tomando una decisión sopesando los resultados de la primera capa de toma de decisiones. De esta manera, un perceptrón en la segunda capa puede tomar una decisión de una manera más compleja y nivel más abstracto que los perceptrones en la primera capa ... De esta manera, una red de perceptrones de muchas capas puede participar en la toma de decisiones sofisticadas ".

Lo que no entiendo es: ¿por qué los perceptrones en la segunda capa pueden "tomar una decisión a un nivel más complejo y más abstracto" que sus contrapartes en la primera capa?

¿Alguien puede proporcionar un ejemplo, tal vez usando el ejemplo del Festival del Queso ya iniciado por este autor? ¿Cuál es un ejemplo de una decisión más compleja / abstracta que podría tomar un perceptrón en la capa 2?


Ejemplo

ingrese la descripción de la imagen aquí

La parte superior del diagrama (arriba) muestra el perceptrón de toma de decisiones detrás del ejemplo del autor Cheese Festival. El perceptrón solitario toma 3 entradas / factores: clima, factores sociales y de transporte. A partir de estos, calcula / determina si uno debe ir al Festival del Queso o no.

La parte inferior del diagrama anterior (es decir, debajo de la línea horizontal) ilustra perfectamente dónde está mi bloqueo mental. Aquí, tenemos 3 neuronas en la Capa 1 que se alimentan en un solo nodo de Capa 2:

  • Un nodo "Debería ir al Festival del queso" : este es el mismo nodo que en la mitad superior del diagrama; y
  • Nodo "Debería ir al Festival de la Leche" : omitido en el diagrama por simplicidad / brevedad
  • Nodo "¿Debo ir al Festival Bacon?" : También se omite por simplicidad / brevedad

Las salidas (decisiones Sí / No) de estos 3 perceptrones se alimentan, como entradas, al nodo de Capa 2 solitario. Dado mi ejemplo aquí, ¿cuál es un ejemplo de una decisión de nodo de Capa 2 que ilustra este concepto de "jerarquía de características" y / o la declaración del autor de que las capas más profundas pueden tomar decisiones más complejas / abstractas?

Answers

La idea básica de las redes de varias capas es que cada capa agrega cierta cantidad de abstracción. La segunda capa en sí tiene la misma estructura que la primera capa, por lo tanto, no puede tomar decisiones más complejas por sí sola. Pero puede basarse en las abstracciones (salidas) creadas en la primera capa.

Me gustaría agregar que esta declaración está bastante idealizada. En la práctica, a menudo es difícil entender qué hacen exactamente las capas internas.

En su ejemplo, la decisión tomada por el nodo de la segunda capa podría ser "¿Debo ir a un festival?"

Hay visualización de capas intermedias en la red profunda. http://blog.keras.io/how-convolutional-neural-networks-see-the-world.html

En pocas palabras, cada nueva capa puede reconocer patrones más complejos buscando patrones en capas anteriores, y la última tiene muchas formas de clases deseadas (antz, flores, automóviles, etc.). Ejemplo:

  1. primera capa detecta bordes, texturas, cosas que puedes hacer con los filtros de Photoshop
  2. segundo puede detectar formas simples basadas en bordes (cuadrados, círculos, líneas, etc.) y texturas más complejas.
  3. figuras más complejas basadas en formas del paso 2
  4. detectar formas más cercanas a las clases objetivo

Eso también explica por qué tiene sentido usar modelos específicos (VGG16 / 18, AlexNet, etc.) y cambiar los niveles superiores. En lugar de pasar semanas entrenando trabajo neto completo.

Related