Cómo Microsoft se apresuró a integrar GPT-4 de OpenAI en la suite '365'

Es un término que se ha pronunciado miles de veces en las salas de conferencias y pasillos de Microsoft durante los últimos meses. Se refiere al 16 de marzo, el día en que la compañía anunció que había incorporado modelos generativos de IA desarrollados en conjunto con OpenAI a su paquete de productividad de Microsoft 365. Según la nueva iniciativa, todas las aplicaciones, desde Outlook hasta Word y Teams, tendrán un «copiloto» generado por inteligencia artificial. Actualmente, la tecnología está siendo probada por unos 20 clientes corporativos de Microsoft.

Construir un asistente de inteligencia artificial en tantas aplicaciones es un gran trabajo, pero Microsoft quería hacerlo rápidamente. El lanzamiento de ChatGPT de OpenAI en noviembre pasado tomó al mundo por sorpresa, desencadenó una carrera armamentista de IA y aceleró los cronogramas de todos para lanzar nuevos productos y funciones de IA generativa. Ni siquiera Microsoft, que ya había estado trabajando e invirtiendo en OpenAI, fue inmune.

El jefe de diseño de Microsoft, Jon Friedman, quien dirigió el diseño de productos de Copilot en Microsoft 365, dice que el proyecto demandó largas horas y muchos fines de semana de trabajo para cientos de empleados de Microsoft, incluidos diseñadores, ingenieros, gerentes de productos, personal de marketing, científicos de datos, equipos de ética, y otros, durante un período de “varios meses”. La iniciativa también les dio a las personas la sensación de que tenían que suprimir sus egos y trabajar juntos, dice Friedman, para construir algo tan grande en tan poco tiempo.

“Había esta emoción de que pudiéramos ir a hacer algo juntos realmente audaz y grande”, dice Friedman. “Si bien teníamos mucha experiencia con la IA, esta cosa en particular [generative AI] era más capaz, así que creo que eso hizo que todos adoptaran la mentalidad de este aprendiz”.

Una nueva experiencia de usuario

Friedman dice que Copilot es un pionero en «UX conversacional», lo que significa un tipo de interfaz de usuario totalmente nuevo que recurre a recursos diferentes y más potentes. El asistente representa “una nueva frontera del diseño de la interfaz de usuario como un cambio de paradigma como los primeros dispositivos de pantalla táctil”, dice. Copilot se basa en el modelo de lenguaje grande GPT-4 de OpenAI, que está previamente entrenado en montañas de contenido de Internet, pero también puede acceder a datos comerciales de Microsoft Graph, de modo que puede generar cosas como contenido de correo electrónico y resúmenes de reuniones.

El desafío de diseño fue averiguar cómo y cuándo exponer este nuevo asistente de IA en el contexto del trabajo que la gente suele hacer en aplicaciones como Word y Powerpoint.

El concepto de «copiloto», que un asistente de IA familiar estaría disponible dentro y en todas las aplicaciones de productividad, era «una intención vaga» al comienzo del proceso de diseño, dice Friedman. Pero comenzó a solidificarse a medida que el equipo de diseño aprendió más sobre cómo el asistente de IA probablemente se usaría en negocios reales. Descubrir estos casos de uso, tareas en las que la IA podría ahorrar tiempo al usuario o estimular su creatividad de alguna manera, fue el primer paso en el proceso de diseño de UX.

Las personas que mejor entienden esos casos de uso son los ingenieros, gerentes de productos, diseñadores y científicos informáticos que trabajan dentro de los grupos de productos verticales para cada aplicación de productividad. El grupo de diseño de Friedman trabaja con todos ellos. Al comienzo del proyecto Copilot, pidió a todos estos equipos de productos que hicieran una lluvia de ideas sobre posibles escenarios de casos de uso para la IA generativa dentro de su aplicación. Luego, su grupo estableció un equipo de diseño horizontal especial para trabajar con todos estos grupos en la presentación de Copilot dentro de cada aplicación.

A medida que los casos de uso comenzaron a encajar dentro de los grupos de aplicaciones, el equipo de diseño horizontal comenzó a notar puntos en común: casos de uso para IA que eran relevantes en múltiples aplicaciones, dice Friedman.

“Así que fue como, OK, para esto [type of] conocer a Copilot sería muy valioso. . . ¿Qué tipo de características específicas necesitaría?” Friedman dice, contando el proceso de pensamiento. «¿Cómo puede el nuevo modelo de lenguaje generativo ayudarnos a hacer un mejor trabajo en la misma tarea dentro del resumen de correo electrónico?»

A medida que estos casos de uso de aplicaciones cruzadas se hicieron más evidentes, el grupo de diseño horizontal comenzó a sentir que la presentación de las funciones de IA no tenía que ser diferente para cada aplicación.

“Porque tienes gente. . . tratando de mirar a través de los escenarios mientras están sucediendo y haciendo este tipo de sentido amplio como, ‘ah, está surgiendo esta cosa'».

Comenzaron a concebir un marco de diseño en el que un asistente común pudiera funcionar de varias formas diferentes pero predecibles dentro de las aplicaciones.

Un copiloto, tres altitudes

El grupo de diseño de Friedman generó una amplia biblioteca de documentos destinados a ayudar a los diseñadores de todo el proyecto a crear puntos de entrada para la IA dentro de una aplicación determinada. Guiaron a los diseñadores sobre cómo aparece Copilot en el contexto de las diferentes tareas que podrían realizar los usuarios. “Existía la noción de que Copilot debería aparecer a la altitud correcta para el trabajo correcto”, dice Friedman.

El marco de diseño especificaba que Copilot se mostraría dentro de la experiencia de usuario de la aplicación en una de tres formas.

La primera fue una experiencia inmersiva en la que el asistente parece centrarse en una iniciativa comercial en lugar de una aplicación específica y, de hecho, puede extraer datos o conocimientos de varias aplicaciones al servicio de la tarea en cuestión. Por ejemplo, Copilot puede recopilar hitos o riesgos del proyecto de las reuniones, presentaciones o hilos de correo electrónico de Teams y luego resumirlos en un documento de planificación del proyecto.

Este modo «inmersivo» es la función más ambiciosa de Copilot dentro de la suite de productividad y, potencialmente, la más impactante. También puede ayudar a abordar un problema de larga data en la suite de productividad de Microsoft: que sus aplicaciones constituyentes no están lo suficientemente integradas, señala Rob Enderle, analista principal de Enderle Group. Enderle dice que esto puede deberse a que Microsoft originalmente adquirió las aplicaciones de otras compañías y no compartían una base de código común. Copilot puede actuar como una «superposición» sobre todas las aplicaciones que al menos crea la apariencia de que el usuario puede hacer que las aplicaciones funcionen juntas al servicio de alguna tarea comercial.

El segundo tipo de presentación es «asistencial», lo que significa que Copilot actúa como un «sidecar» que acompaña al usuario dentro de una aplicación específica, ayudándolo a aprovechar al máximo la funcionalidad de la aplicación, dice Friedman. En PowerPoint, podría mostrarle al usuario cómo se pueden aplicar las características gráficas profundas de la aplicación para contar la historia de cierto conjunto de datos. En Outlook, puede ayudar al usuario a comprender los puntos más importantes de un hilo de correo electrónico. En Word, puede proporcionar comentarios sobre cómo se podría escribir mejor un documento o ajustarse mejor a un determinado estilo de escritura.

En la presentación «incrustada» de Copilot, la IA puede actuar en una capacidad generativa y creativa dentro de las aplicaciones. La IA podría, por ejemplo, presentarse como una pequeña ventana emergente dentro del texto de un documento de Word. “Es como esta experiencia en el flujo”, dice Friedman. “Cuando estás en un trabajo profundo, Copilot puede ayudarte con el bloqueo del escritor o ayudarte a comenzar en frío algo (una plataforma de diapositivas en PowerPoint, tal vez)”.

El equipo de diseño horizontal de Copilot comenzó a describir el trabajo en términos del concepto de «tres altitudes», y la gente comenzó a aceptarlo, dice Friedman, comenzando con las personas que trabajaban en Copilot dentro de los equipos de aplicaciones verticales.

“Compartimos este tipo de encuadre con Satya [CEO Nadella] y otros en el equipo de liderazgo sénior y en cierto modo hizo clic para las personas: esta idea de que es una sola cosa, pero se adapta a ti en estas tres altitudes diferentes de trabajo”.

El concepto de «Copiloto» no se inventó exactamente para Microsoft 365. El nombre fue adoptado originalmente por GitHub (propiedad de Microsoft) en 2021 para su asistente de codificación, que también funciona en parte con los grandes modelos de lenguaje OpenAI. Pero el trabajo de Microsoft para crear un asistente Copilot consistente que realice algunas funciones estandarizadas en un conjunto diverso de aplicaciones de productividad es un trabajo nuevo. Es probable que esa uniformidad alivie la fricción que los usuarios veteranos de las aplicaciones de productividad experimentarán cuando «Microsoft 365 con Copilot» finalmente esté disponible para el público en general.

También sugiere que la marca y el concepto de Copilot podrían extenderse a otras interfaces de usuario de Microsoft, como el sistema operativo Windows o incluso LinkedIn, a medida que la IA generativa se abre camino en los productos empresariales y de consumo de la empresa.

“Satya es un gran admirador de este nombre porque describe acertadamente lo que hace Copilot”, dice Friedman. “Está ahí para ayudarlo y mantenerlo en el asiento del piloto en muchas tareas. . .”