banner
Hogar / Noticias / El auge de lo abierto
Noticias

El auge de lo abierto

Apr 08, 2023Apr 08, 2023

Seth Grief-Albert

Seguir

Revisión de la tecnología QMIND

--

Escuchar

Compartir

La tecnología es un fenómeno interesante. Puede existir de una forma u otra durante bastante tiempo, oculto o inaccesible, hasta que un día parece emerger completamente formado y luego es consumido vorazmente por el público. La nueva fiebre del oro del siglo XXI está sobre nosotros. La era de la Inteligencia Artificial (IA) comercializada se está acelerando y, con ella, se está librando la batalla por su poder potencial y sus ganancias.

La 'IA' que se ha elevado a un predominio extraordinario se etiqueta más acertadamente como su subconjunto específico, Modelos de lenguaje extenso (LLM), pero la cultura popular tiene una forma de asignar palabras de moda que se adhieren a todo el campo. Es posible que muchos hayan oído hablar de "esta nueva tecnología de IA" por primera vez a través de los medios de comunicación o de un miembro de la familia en lugar de su feed habitual de Twitter o blog técnico; tal es la velocidad con la que se difundió en el mercado. El campo de la IA ha tenido un progreso increíble durante años, pero el punto de explosión de los consumidores parece haber sido a mediados de diciembre de 2022, cuando OpenAI lanzó ChatGPT al público en una página web. El siguiente gráfico habla por sí mismo:

Está claro que las personas tienen hambre de interactuar y utilizar la tecnología de IA. Imagínese como un desarrollador que ve esta imagen, o el ejecutivo de una corporación tecnológica gigante, o el fundador de una startup. Tomando prestado de la historia, podemos comparar la era actual de la IA con el período medieval. Los gobernantes tenían poder y riquezas y custodiaban sus castillos, mientras que los plebeyos estaban excluidos. De vez en cuando, bárbaros errantes intentarían usurpar a los gobernantes. Las grandes corporaciones (Google, Meta, Microsoft, etc.) toman asiento en la sala del trono, mientras que los desarrolladores y académicos juegan el papel de extraños. ¿Cómo se desarrolla esta historia? Volvamos a principios de 2023.

ChatGPT había estado disponible durante más de un mes, y la exageración en torno a los modelos de lenguaje grande estaba en pleno apogeo. Pero, ¿qué es exactamente un LLM? Se originan como 'modelos básicos', o algoritmos especializados que han pasado por largos períodos de entrenamiento sobre grandes cantidades de datos textuales. El resultado de este proceso es un modelo que puede responder a consultas de lenguaje con respuestas que suenan razonables. Estos modelos tienen una gran cantidad de pesos y parámetros que, para nuestros propósitos, pueden considerarse como todos los patrones aprendidos en el entrenamiento. Estos pesos y parámetros son maleables y pueden ajustarse con precisión. Aquí, los LLM están expuestos a una tarea más específica que la reconstrucción de texto general. La tarea de ajuste fino más popular que hemos visto hasta ahora ha sido la conversación natural, pero un subcampeón es que el modelo de lenguaje siga instrucciones de texto.

El modelo base de ChatGPT es GPT-3, que se arregló para interactuar conversacionalmente mediante el aprendizaje reforzado con retroalimentación humana (RLHF), convirtiéndose en GPT-3.5. En esencia, personas reales revisaron un montón de respuestas que había dado el LLM y seleccionaron las que eran más similares a conversaciones reales. Esta puesta a punto humana en el circuito convirtió un modelo de texto predictivo (que ya había existido durante más de un año) en la maravilla global que conocemos hoy. El ajuste fino es una herramienta poderosa que puede convertir el caos de datos en una apariencia de orden.

Pero OpenAI no fue el único jugador en el juego. Trabajando en silencio, Meta estaba preparando el lanzamiento de su propio modelo básico. El 24 de febrero de 2023 se lanzó al mundo LLaMA (Large Language Model Meta AI). No pasó mucho tiempo para que las cosas se descarriaran.

Avance rápido menos de una semana. La tarde del 2 de marzo de 2023 marcó un nuevo comienzo para la descentralización de la IA: un usuario anónimo filtró al público un archivo que contenía los pesos de LLaMA en el sitio de redes sociales 4chan. Esto provocó una explosión de interés que arrasó en el mundo de la IA. Los pesos no tardaron mucho en llegar a través de Internet al territorio de GitHub y HuggingFace, esencialmente la página principal de software e IA de Internet, respectivamente.

Las compuertas se habían abierto. Con los pesos de LLaMA al alcance de todos, cualquiera podía aprovechar el poder del modelo de base que tenía en sus manos. El software de código abierto es accesible para que las personas desarrollen código en una red global. Piense en Wikipedia, donde cualquier persona en todo el mundo puede editar una enciclopedia masiva; en cambio, la enciclopedia de software de código abierto puede considerarse como una base de código descentralizada. Es público y anti-silos, lo que lo hace accesible y, por lo tanto, increíblemente popular para los desarrolladores de software a nivel mundial. También es la placa de Petri perfecta para la experimentación con IA.

Stanford se apresuró a participar en la acción de LLaMA. Desde la filtración inicial, habían estado trabajando durante poco más de una semana para afinar el modelo de lenguaje, lo llamaron ALPACA y lo lanzaron el 13 de marzo. Por el costo asombrosamente bajo de $600, habían logrado resultados de vanguardia en el seguimiento de instrucciones, una rama popular del modelado del lenguaje. Pero todavía estaban obligados por los derechos de autor de Meta, ¿verdad? Bueno, algo así. Junto con ALPACA, los nuevos pesos impulsaron la adopción de ajustes finos de bajo rango, lo que permitió la libertad de los derechos de propiedad de Meta. Esta estrategia permitió a cualquiera repetir el proceso de Stanford en hardware de consumo en un período de tiempo notablemente corto: estamos hablando de una computadora robusta y un par de horas.

En una avalancha de aplicaciones basadas en LLaMA, un grupo de desarrolladores establecido llamado Nomic AI lanzó un proyecto monumental, GPT4All:

GPT4All es un ecosistema para entrenar e implementar modelos de lenguaje grande potentes y personalizados que se ejecutan localmente en CPU de grado de consumidor.

– IA nómica

Ahora, con este ecosistema de código abierto iniciado a partir de modelos de lenguaje recopilados y datos no autorizados, incluso más personas podrían construir por sí mismos. ¿Quiere ejecutar un LLM sin tener que conectarse a Internet? Lo entendiste. ¿Privacidad? Construido en

Todo estaba en auge en el código abierto con este gran espectáculo de IA: cada vez más rápido, más barato y más distribuido día a día. Esto llamó la atención de algunos grandes jugadores. El 4 de mayo, se filtró un documento interno de Google, titulado 'No tenemos foso y tampoco OpenAI'. La opinión de un investigador de la institución, relató el rápido ritmo del desarrollo de LLM desde principios de 2023 y explicó por qué el código abierto compite directamente con la investigación de Google (o más específicamente, Google Deepmind). El "foso" titular se relaciona maravillosamente con nuestra analogía del castillo medieval: ¿Cómo se supone que las principales corporaciones tecnológicas deben defender sus avances en IA cuando el mundo del código abierto parece estar superándolos?

"Nosotros los necesitamos más de lo que ellos nos necesitan"

Ponte en la piel de un investigador de IA en Google. Siguiendo de cerca la aceleración de la investigación de IA de código abierto, con escalas de tiempo de días y semanas, es posible que se sienta abandonado como parte de una empresa masiva que se percibe que trabaja a un ritmo más lento y deliberado. Porque así es como se estructura una gran corporación: intenso análisis de mercado, conformidad con la política existente, imperativos estratégicos. Seguramente es difícil resistir el torbellino omnipresente de la exageración de la IA.

Por su naturaleza, las empresas privadas almacenan talento para mantener una ventaja competitiva. OpenAI comenzó como una organización sin fines de lucro que enviaba investigaciones de cara al público, mientras que ahora, como organización privada, se reserva su valioso progreso. Pero, ¿el silo metafórico de Big Tech está realmente amenazado? ¿Está el castillo condenado a ser invadido por bárbaros de código abierto, o más catastróficamente, queda obsoleto?

Por el contrario, creo que estos castillos están naturalmente bien defendidos. Podría ser irresponsable imaginar el final de la ventaja competitiva de Big Tech tan pronto. Repasemos un par de "fosos" que solidifican las posiciones de estos gigantes en el mercado.

Usuarios: más de la mitad de todos los seres humanos que viven actualmente son usuarios de Google. Una cantidad astronómica de personas también usa productos y servicios de Microsoft, Meta y ahora OpenAI. Seamos realistas: la mayoría de las personas no saben cómo interactuar con el software de código abierto de última generación, y mucho menos lo que significa "bifurcar un repositorio de GitHub". Se necesitó una interfaz intuitiva para que ChatGPT hiciera rondas globales, y debemos tener cuidado de evitar confundir el progreso tecnológico con la adopción de tecnología. Las personas están acostumbradas al software que ya está presente en sus vidas. Incluso si las opciones de terceros son más baratas, más avanzadas o más privadas, la mayoría confiará en el empaque confiable que conocen y aman.

La accesibilidad es extremadamente importante para llegar a los consumidores. Podemos mirar hacia atrás a una aplicación reciente de IA de generación de imágenes que ejemplifica esto: Lensa AI, que coincidió con el lanzamiento de ChatGPT a fines de noviembre de 2022. Lanzado a través de una aplicación de fotografía preexistente, Lensa le permitió cargar algunas fotos de usted mismo. y recibe una cantidad de avatares generados por IA. La aplicación explotó y vio una enorme ganancia en un período notablemente corto. Resulta que este mismo concepto de foto a avatar ya existía unas semanas antes del lanzamiento de Lensa; la diferencia era que la plataforma de generación de avatar ya existente estaba en un sitio web, no en una aplicación. Los consumidores interesados ​​en la IA de generación de imágenes se llegaban mejor a través de su dispositivo móvil, no en su computadora. Curiosamente, lo que obstruyó el mercado de generación de imágenes fue lo que permitió que florecieran los LLM. OpenAI implementó ChatGPT al público a través de una página web simple. Una explicación plausible de esta diferencia de implementación fue el resultado final para el usuario. Generar un avatar genial para enviar a tus amigos es más fácil en tu teléfono, mientras que obtener un programa como ChatGPT para hacer tu tarea es más conveniente en la web. Microsoft siguió el ejemplo establecido por OpenAI y lanzó Bing Chat a través de su navegador a una base de usuarios de millones.

Plataformas informáticas: Recientemente escuché la analogía de que si la IA es similar a la locomotora, el poder de cómputo es su carbón. Puede ser útil mirar hacia atrás a la historia de la revolución industrial. ¿Quién se estaba haciendo rico? La creación de la industria fue, por supuesto, lucrativa, ¡pero piense también en las operaciones de extracción de carbón a gran escala tan características de la época! La realidad de albergar grandes modelos de IA es que requieren una gran cantidad de energía y una infraestructura robusta. Los únicos actores realmente capaces de albergar una demanda tan extrema son las grandes corporaciones tecnológicas: Google con su nube, Azure de Microsoft y AWS de Amazon. Incluso en el caso de que la investigación de código abierto supere a cualquier laboratorio de IA individual con un estilo revolucionario, estos gigantes venden la munición.

Investigación y desarrollo de clase mundial: Las corporaciones de tecnología más grandes han atacado a algunas de las mejores mentes en varios campos de la IA. Lo que diferencia al código abierto de un laboratorio de investigación determinado es el enorme volumen de buen trabajo, que en el caso de los LLM parece tener alguna ventaja sobre la investigación más concentrada de excelente calidad. Los mejores silos pueden ser increíblemente efectivos cuando es necesario.

La ventaja competitiva de las grandes corporaciones de tecnología es que persiguen las ganancias a toda costa. Son máquinas que trabajan perpetuamente para convertir los datos en ingresos. Cada vez es más claro que, al menos en la mente de estas corporaciones, las comunidades de desarrolladores rebeldes no se interpondrán en su camino. Con todos los usuarios confiables que podrían desear, el poder de alojar y distribuir modelos y la promesa de la próxima generación de investigación de IA, sería ingenuo profesar la caída inminente de estos bastiones fortificados competitivamente.

Se debe tener en cuenta el estado del progreso de la IA. Los LLM se basan en modelos de transformadores, y el avance en torno a estos modelos es solo rascar la superficie del potencial. Los transformadores se presentaron al mundo a través del artículo seminal de 2017 'Attention Is All You Need'. Puede ser útil imaginar la investigación como trepar a un árbol, con el árbol transformador pareciendo bastante alto y dando muchos frutos.

Si bien ahora es lucrativo, eventualmente es posible que sea necesario plantar un nuevo árbol: uno que marque el comienzo de la próxima generación de modelo de base y las modificaciones que lo acompañan. En el camino hacia el aumento de las capacidades generales de la inteligencia artificial, tal vez los modelos de lenguaje no sean lo más importante. En un escenario en el que desaparezca la exageración en torno a estos modelos, apostaría mi dinero en laboratorios de investigación en instituciones como Google y OpenAI que realizan avances novedosos, aunque solo sea por el hecho de que ya ha surgido una gran cantidad de trabajo innovador.

Desde la filtración del documento el 4 de mayo, han pasado muchas cosas con respecto a la estrategia de implementación de Google. En el reciente I/O, un evento anual de exhibición para desarrolladores, la IA fue un tema principal:

Predecir el futuro de la IA en función del conocimiento actual es una tarea difícil de alcanzar. ¿Existe potencial para que el poder de la inteligencia artificial de vanguardia se distribuya entre las manos de actores éticos? La capacitación de modelos básicos es increíblemente costosa y casi en su totalidad la llevan a cabo grandes corporaciones. Parece poco probable que eso cambie drásticamente en el futuro previsible. Si uno se enfoca en llevar la investigación y la tecnología a los consumidores, parece que las vías de entrega al mercado son las que más importan. Pero se debe hacer una distinción: la investigación y el desarrollo no están necesariamente alineados con los objetivos del despliegue de tecnología. Big Tech seguirá siendo un jugador poderoso, aunque solo sea en su capacidad para hacer que las personas usen la IA en su vida cotidiana.

Hemos visto que cuando se otorga al público acceso a recursos competitivos a través del código abierto, puede ocurrir un progreso increíble extremadamente rápido. Imagine un mundo en el que los investigadores de IA puedan llevar sus ideas más rápidamente a la fase de implementación y dedicar mayores esfuerzos a abordar la vanguardia de sus campos. Con las pautas correctas, creo que esto es preferible a un modelo de monopolio corporativo sobre la investigación más avanzada.

Esto plantea la pregunta: ¿a qué tipo de mundo nos estamos acercando? ¿Seguirán los investigadores y desarrolladores confiando en los gigantes corporativos para que los honren con modelos básicos? ¿Cómo evolucionará el panorama de la IA de código abierto y resistirá la prueba del tiempo? Estas preguntas no tienen respuestas definitivas. Si algo está claro es que estamos solo al comienzo de este paradigma.

Cualquier camino seguido con precisión hasta su final no conduce precisamente a ninguna parte. Escala la montaña solo un poco para probar que es una montaña. Desde la cima de la montaña, no puedes ver la montaña.

– Frank Herbert | Duna

Si tiene alguna pregunta o comentario, no dude en comunicarse conmigo en LinkedIn.

Este artículo fue escrito para QMIND, la organización dirigida por estudiantes más grande de Canadá en tecnología disruptiva e inteligencia artificial.

Usuarios: Plataformas informáticas: Investigación y desarrollo de clase mundial: