Última actualización el 31 de julio de 2021
Las derivadas de orden superior pueden capturar información sobre una función que las derivadas de primer orden por sí solas no pueden capturar.
Las derivadas de primer orden pueden capturar información importante, como la tasa de cambio, pero por sí solas no pueden distinguir entre mínimos o máximos locales, donde la tasa de cambio es cero para ambos. Varios algoritmos de optimización abordan esta limitación explotando el uso de derivadas de orden superior, como en el método de Newton, donde las derivadas de segundo orden se utilizan para alcanzar el mínimo local de una función de optimización.
En este tutorial, descubrirá cómo calcular derivadas univariadas y multivariadas de orden superior.
Después de completar este tutorial, sabrá:
- Cómo calcular las derivadas de orden superior de funciones univariadas.
- Cómo calcular las derivadas de orden superior de funciones multivariadas.
- Cómo se pueden explotar las derivadas de segundo orden en el aprendizaje automático mediante algoritmos de optimización de segundo orden.
Empecemos.
Descripción general del tutorial
Este tutorial se divide en tres partes; ellos son:
- Derivadas de orden superior de funciones univariadas
- Derivadas de orden superior de funciones multivariadas
- Aplicación en aprendizaje automático
Derivadas de orden superior de funciones univariadas
Además de las derivadas de primer orden, que como hemos visto pueden proporcionarnos información importante sobre una función, como su tasa de cambio instantánea, las derivadas de orden superior también pueden ser igualmente útiles. Por ejemplo, la segunda derivada puede medir la aceleración de un objeto en movimiento o puede ayudar a un algoritmo de optimización a distinguir entre un máximo local y un mínimo local.
Calcular derivadas de orden superior (segundo, tercero o superior) de funciones univariadas no es tan difícil.
La segunda derivada de una función es solo la derivada de su primera derivada. La tercera derivada es la derivada de la segunda derivada, la cuarta derivada es la derivada de la tercera, y así sucesivamente.
– Página 147, Cálculo para tontos, 2016.
Por lo tanto, calcular derivadas de orden superior simplemente implica diferenciar la función repetidamente. Para hacerlo, simplemente podemos aplicar nuestro conocimiento de la regla del poder. Consideremos la función, F(X) = x3 + 2x2 – 4x + 1, como ejemplo. Luego:
Primera derivada: F‘(X) = 3X2 + 4X – 4
Segunda derivada: F» (X) = 6X + 4
Tercera derivada: F» ‘(X) = 6
Cuarta derivada: F (4)(X) = 0
Quinta derivada: F (5)(X) = 0 etc.
Lo que hemos hecho aquí es que primero hemos aplicado la regla de la potencia a F(X) para obtener su primera derivada, F‘(X), luego aplicó la regla de la potencia a la primera derivada para obtener la segunda, y así sucesivamente. La derivada, eventualmente, llegará a cero a medida que la diferenciación se aplique repetidamente.
La aplicación de las reglas del producto y del cociente también sigue siendo válida para obtener derivadas de orden superior, pero su cálculo puede volverse cada vez más complicado a medida que aumenta el orden. La regla general de Leibniz simplifica la tarea en este aspecto, al generalizar la regla del producto a:
Aquí, el término, norte! / k! (norte – k) !, es el coeficiente binomial del teorema binomial, mientras que F (k) y gramo(k) denotar el kth derivada de las funciones, F y gramo, respectivamente.
Por lo tanto, encontrar la primera y segunda derivadas (y, por tanto, sustituir norte = 1 y norte = 2, respectivamente), por la regla general de Leibniz, nos da:
(fg)(1) = (fg) ‘= F (1)gramo + F gramo(1)
(fg)(2) = (fg) » = F (2)gramo + 2F (1)gramo(1) + F gramo(2)
Observe la conocida primera derivada definida por la regla del producto. La regla de Leibniz también se puede usar para encontrar derivadas de orden superior de funciones racionales, ya que el cociente se puede expresar efectivamente en un producto de la forma, F gramo-1.
Derivadas de orden superior de funciones multivariadas
La definición de derivadas parciales de orden superior de funciones multivariadas es análoga al caso univariante: el norteth ordenar derivada parcial para norte > 1, se calcula como la derivada parcial de (norte – 1)th orden derivada parcial. Por ejemplo, tomar la segunda derivada parcial de una función con dos variables da como resultado cuatro, segundas derivadas parciales: dos propio Derivadas parciales, Fxx y Faa, y dos derivadas parciales cruzadas, Fxy y Fyx.
Para tomar una «derivada», debemos tomar una derivada parcial con respecto a xo y, y hay cuatro formas de hacerlo: x luego x, x luego y, y luego x, y luego y.
– Página 371, Cálculo simple y multivariable, 2020.
Consideremos la función multivariante, F(X, y) = X2 + 3xy + 4y2, para lo cual nos gustaría encontrar las segundas derivadas parciales. El proceso comienza con la búsqueda de sus derivadas parciales de primer orden, primero:
Las cuatro derivadas parciales de segundo orden se encuentran luego repitiendo el proceso de encontrar las derivadas parciales de las derivadas parciales. El propio las derivadas parciales son las más sencillas de encontrar, ya que simplemente repetimos el proceso de diferenciación parcial, con respecto a X o y, por segunda vez:
La derivada parcial cruzada del encontrado previamente FX (es decir, la derivada parcial con respecto a X) se encuentra tomando la derivada parcial del resultado con respecto a y, dándonos Fxy. De manera similar, tomando la derivada parcial de Fy con respecto a X, Nos da Fyx:
No es por accidente que las derivadas parciales cruzadas den el mismo resultado. Esto está definido por el teorema de Clairaut, que establece que mientras las derivadas parciales cruzadas sean continuas, entonces son iguales.
Aplicación en aprendizaje automático
En el aprendizaje automático, es la derivada de segundo orden la que se utiliza principalmente. Anteriormente habíamos mencionado que la segunda derivada puede proporcionarnos información que la primera derivada por sí sola no puede capturar. Específicamente, puede decirnos si un punto crítico es un mínimo o máximo local (en función de si la segunda derivada es mayor o menor que cero, respectivamente), para lo cual la primera derivada sería, de lo contrario, cero en ambos casos.
Hay varios segundo orden algoritmos de optimización que aprovechan esta información, uno de los cuales es el método de Newton.
La información de segundo orden, por otro lado, nos permite hacer una aproximación cuadrática de la función objetivo y aproximar el tamaño de paso correcto para alcanzar un mínimo local …
– Página 87, Algoritmos de optimización, 2019.
En el caso univariado, el método de Newton usa una expansión de la serie de Taylor de segundo orden para realizar la aproximación cuadrática alrededor de algún punto de la función objetivo. La regla de actualización para el método de Newton, que se obtiene estableciendo la derivada en cero y despejando la raíz, implica una operación de división por la segunda derivada. Si el método de Newton se extiende a la optimización multivariante, la derivada se reemplaza por el gradiente, mientras que el recíproco de la segunda derivada se reemplaza con la inversa de la matriz de Hesse.
Cubriremos las aproximaciones de las series de Hessian y Taylor, que aprovechan el uso de derivadas de orden superior, en tutoriales separados.
Otras lecturas
Esta sección proporciona más recursos sobre el tema si desea profundizar.
Libros
Resumen
En este tutorial, descubrió cómo calcular derivadas univariadas y multivariadas de orden superior.
Específicamente, aprendiste:
- Cómo calcular las derivadas de orden superior de funciones univariadas.
- Cómo calcular las derivadas de orden superior de funciones multivariadas.
- Cómo se pueden explotar las derivadas de segundo orden en el aprendizaje automático mediante algoritmos de optimización de segundo orden.
¿Tiene usted alguna pregunta?
Haga sus preguntas en los comentarios a continuación y haré todo lo posible para responder.