“Hemos visto muchos lanzamientos de empresas que bien pueden estar buscando una aplicación brillante de IA, pero no tienen acceso a los datos que les darán la capacidad de crear una aplicación poderosa, y mucho menos a los datos patentados que los ayudarán. tienen fosos competitivos en sus negocios», dijo Brad Svrluga, cofundador y socio general de la firma de capital de riesgo Primary Venture Partners.
Hoy en día, tener los datos correctos es más crítico que nunca para el éxito. Ahora que la construcción de los modelos reales se ha vuelto un poco mercantilizada, el valor real está en los datos, dijo Paul Tyma, CTO residente de Bullpen Capital.
La financiación de riesgo en nuevas empresas de IA generativa ha crecido de $ 4.8 mil millones en 2022 a $ 12.7 mil millones en los primeros cinco meses de 2023, según PitchBook. Ahora, muchas de estas empresas están buscando construir más modelos de IA de nicho en áreas como finanzas o atención médica, pero obtener acceso a conjuntos de datos de capacitación allí no ha sido fácil.
Algunas nuevas empresas de IA apuntan a asociaciones con grandes empresas ricas en datos. Por ejemplo, Marna Ricker, vicepresidenta global de impuestos de EY, dijo que la empresa tiene nuevas empresas de inteligencia artificial generativa que se le acercan todos los días gracias a su gran cantidad de datos transaccionales. Pero el socio gerente global de servicio al cliente de EY, Andy Baldwin, dijo que le preocupa lo que sucedería con los datos de EY si se utilizan para entrenar un modelo externo.
“¿Quién es el dueño de esos datos? Y cuando entrenamos el modelo, ¿cuáles son nuestros derechos de acceso a ese modelo? ¿Y de qué otra manera otras personas podrán usar ese modelo?», dijo Baldwin. «Los datos son parte de nuestra propiedad intelectual que traemos».
Las empresas emergentes pueden solucionar el problema de la propiedad intelectual entrenando un modelo diferente para cada uno de sus clientes solo con los datos de ese cliente. Esa es una estrategia que la startup TermSheet está utilizando para construir su producto Ethan, un modelo de inteligencia artificial generativa para responder preguntas de la industria para desarrolladores, corredores e inversores de bienes raíces. Pero incluso lograr que los clientes acepten eso requiere algo de educación y convencimiento, dijo el CEO y cofundador Roger Smith.
Convencer a las empresas de que tiene una sólida postura de seguridad cibernética y que realmente puede proteger esos datos también puede ser un desafío, dijo Andy Wilson, cofundador y director ejecutivo de la empresa de tecnología legal Logikcull.
Svrluga de Primary Venture Partners dijo que los titulares de tecnología más grandes pueden tener una ventaja sobre las nuevas empresas en aplicaciones de IA generativa en parte porque ya cuentan con la confianza de grandes clientes que se sienten cómodos con ellos manejando datos.
Tracy Daniels, directora de datos de la empresa de servicios financieros Truist, dijo que actualmente solo está explorando casos de uso de IA generativa con proveedores de tecnología más grandes en lugar de nuevas empresas. Dijo que puede confiar en los proveedores más grandes para mantener los datos seguros.
Significa que incluso las empresas emergentes que pueden obtener una ventaja inicial con datos disponibles públicamente enfrentan desafíos para desarrollar sus modelos con conjuntos de datos empresariales. Veesual, una startup de inteligencia artificial que puede generar imágenes de cómo se ven las personas probándose ropa, inicialmente aprovechó las imágenes públicas de Internet para la capacitación, pero luchó para que los grandes minoristas accedieran a entregar sus datos para mejorar el modelo.
En algunos casos, los grandes minoristas pidieron grandes pagos o acciones en la empresa a cambio de cómo Veesual se beneficiaría de esos datos, y los tratos no se concretaron, dijo el director ejecutivo y cofundador Maxime Patte.
PatentPal, una startup de inteligencia artificial generativa que ayuda a los bufetes de abogados a redactar solicitudes de patentes, está capacitada en presentaciones de patentes disponibles públicamente, dijo el CEO y fundador Jack Xu. Existe la oportunidad de hacer que la herramienta sea más precisa al continuar entrenándola con los comentarios reales de los clientes que se cifraron o anonimizaron, dijo. Pero es complejo porque esa retroalimentación debe separarse de datos altamente sensibles y confidenciales, incluidos los secretos comerciales.
“Para las empresas emergentes en etapa temprana, existe un problema de reconocimiento de marca, un problema de prueba social”, dijo.
Pero al mismo tiempo, la presión está encendida. Adam Struck, fundador y socio gerente de Struck Capital, dijo que algunas nuevas empresas están compitiendo entre sí para asegurar más datos dentro de ciertos nichos y hacerlo más rápido.
“Si cree que hay un conjunto de datos patentados, querrá presentarlos y luego negociar la exclusividad”, dijo. “En ese sentido, casi se convierte en una carrera armamentista”.