Saltar al contenido

Aprendizaje automático: ¡fuera! Ciencia de datos: ¡adentro! | blog@CACM

15 de junio de 2022

La ciencia de datos es un nuevo campo de investigación interdisciplinario que se enfoca en extraer valor de los datos, integrando conocimientos y métodos de la informática, las matemáticas y la estadística, y un dominio de aplicación. El aprendizaje automático es el campo creado en la intersección de la informática y la estadística, y tiene muchas aplicaciones en la ciencia de datos cuando se tiene en cuenta el dominio de la aplicación.

Desde una perspectiva histórica, el aprendizaje automático se consideró, durante los últimos 50 años aproximadamente, como parte de la inteligencia artificial. Se enseñó principalmente en los departamentos de informática a científicos e ingenieros y, en consecuencia, se centró la atención en los aspectos matemáticos y algorítmicos del aprendizaje automático, independientemente del dominio de la aplicación. Por lo tanto, aunque el aprendizaje automático también se ocupa de las estadísticas, que se centra en los datos y considera el dominio de la aplicación, hasta hace poco, la mayoría de las actividades de aprendizaje automático tenían lugar en el contexto de la informática, donde comenzó, y que tradicionalmente se centra en los algoritmos.

Sin embargo, dos procesos han tenido lugar en paralelo al crecimiento acelerado de la ciencia de datos en la última década. Primero, floreció el aprendizaje automático, como un subcampo de la ciencia de datos, y comenzó su implementación y uso en una variedad de disciplinas. Como resultado, los investigadores se dieron cuenta de que el dominio de la aplicación no se puede descuidar y que se debe considerar en cualquier situación de resolución de problemas de ciencia de datos. Por ejemplo, es fundamental conocer el significado de los datos en el contexto del dominio de la aplicación para preparar los datos para la fase de entrenamiento y evaluar el rendimiento del algoritmo en función del significado de los resultados en el mundo real. En segundo lugar, una variedad de población comenzó a tomar cursos de aprendizaje automático, personas para quienes, como expertos en sus disciplinas, es inherente y esencial considerar el dominio de la aplicación en los procesos de resolución de problemas de ciencia de datos.

Recomendado:  La máxima entropía RL (demostrablemente) resuelve algunos problemas sólidos de RL: el blog de investigación de inteligencia artificial de Berkeley

Enseñar el aprendizaje automático a una población tan amplia, mientras se descuida el dominio de la aplicación como se enseña tradicionalmente en los departamentos de ciencias de la computación, es engañoso. Tal enfoque de enseñanza guía a los alumnos a ignorar el dominio de la aplicación, incluso cuando es relevante para la fase de modelado de la ciencia de datos, en la que se utiliza en gran medida el aprendizaje automático. En otras palabras, cuando los estudiantes aprenden el aprendizaje automático sin considerar el dominio de la aplicación, pueden tener la impresión de que el aprendizaje automático debe aplicarse de esta manera y acostumbrarse a ignorar el dominio de la aplicación. Este hábito mental puede, a su vez, influir en sus futuros procesos de toma de decisiones profesionales.

Por ejemplo, considere a un investigador en la disciplina del trabajo social que tomó un curso de aprendizaje automático pero no fue educado para considerar el dominio de la aplicación en la interpretación del análisis de datos. Ahora se le pide al investigador que recomiende un programa de intervención. Dado que el investigador no fue educado para considerar el dominio de la aplicación, él o ella pueden ignorar factores cruciales en este examen y confiar solo en la recomendación del algoritmo de aprendizaje automático.

Otros ejemplos son la educación y el transporte, campos que todos sienten que entienden. Como resultado de una educación de aprendizaje automático que no considera el dominio de la aplicación, los no expertos en estos campos pueden suponer que tienen suficiente conocimiento en estos campos y pueden no entender el papel crucial que juega el conocimiento profesional en estos campos en la toma de decisiones. procesos de creación que se basan en el examen de la salida de algoritmos de aprendizaje automático. Este fenómeno se destaca aún más cuando los médicos o los ingenieros de alimentos, por ejemplo, no están capacitados o educados en cursos de aprendizaje automático para criticar los resultados de los algoritmos de aprendizaje automático en función de su profesionalismo en medicina e ingeniería de alimentos, respectivamente.

Recomendado:  La inteligencia artificial y la máquina de moléculas unen fuerzas para generalizar la química automatizada

Por lo tanto, proponemos dejar de impartir cursos de aprendizaje automático a poblaciones cuya disciplina principal no sea la informática ni las matemáticas y la estadística. En cambio, estas poblaciones deberían aprender el aprendizaje automático solo en el contexto de la ciencia de datos, lo que destaca repetidamente la relevancia del dominio de la aplicación en cada etapa del ciclo de vida de la ciencia de datos y, específicamente, en la fase de modelado en la que el aprendizaje automático juega un papel importante.

Si se acepta nuestra sugerencia de ofrecer cursos de aprendizaje automático en una variedad de disciplinas solo en el contexto de la ciencia de datos, no solo se resaltará la interdisciplinariedad de la ciencia de datos, sino también la comprensión de que el dominio de la aplicación no se puede descuidar en el problema de la ciencia de datos. -los procesos de resolución también se aclararán más.

¡No enseñes el aprendizaje automático! ¡Enseña ciencia de datos!

Orit Hazzan es profesor del Departamento de Educación en Ciencia y Tecnología del Technion; su investigación se centra en la informática, la ingeniería de software y la educación en ciencia de datos. mike koby es un doctorado estudiante del Departamento de Educación en Ciencia y Tecnología del Technion; su investigación se centra en la educación en ciencia de datos.


entradas no encontradas