Me alegra que una de las primeras entradas de la nueva Codeteca sea para hacer eco de esta iniciativa que comentó dotCSV en su canal de youtube.
Se trata de una iniciativa para crear una versión de chatGPT. Si no conoces que es chatGPT se trata de un chatbot de inteligencia artificial desarrollado en 2022 por OpenAI, actualmente se encuentra en su versión 3.5 y la verdad es que ha demostrado unos resultados espectaculares a la hora de generar conversaciones
La idea detrás del proyecto Open Assistant es crear algo similar, pero en una versión Open Source. Uno de los primeros problemas que te encuentras cuando quieres entrenar un modelo tan complejo es conseguir datos para entrenar a la IA que hay detrás.
Si no conoces mucho sobre inteligencia artificial, te contaré brevemente que hay dos fases: El entrenamiento y la ejecución del modelo.
La primera fase es siempre la más costosa a nivel de tiempo, recursos y se necesita una cantidad ingente de datos. Cuanto más ingente, mejor se comportará el modelo una vez lo pongas a trabajar. Estos datos, a su vez, pueden ser de varios tipos, si quieres saber más sobre este tema te recomiendo puedes ver esta entrada en la que te cuento los tipos . Pero simplificando mucho el tema, hay dos tipos: No supervisados y supervisados. Por poner un ejemplo muy sencillo, puedes entrenar una IA con datos no supervisados si, por ejemplo, coges las temperaturas diarias de los últimos 10 años e intentas que el modelo prediga las temperaturas futuras. El modelo buscará patrones e intentará inferir como será la temperatura de mañana.
Un entrenamiento supervisado, sería, por ejemplo, el que haces cuando usas Google Fotos y le indicas quién aparece en las fotos. Una vez has etiquetado suficientes fotos de una persona, la IA es capaz de aprender que esa cara pertenece a esa persona y la siguiente vez que aparezca en una imagen la reconocerá.
Bien, en este caso para crear Open Assistan es necesario añadir una gran cantidad de datos, concretamente de conversaciones. Y si además estos datos vienen con etiquetas sobre el tema del que se está tratando, como lo expresa, el sentimiento te transmite, si es una conversación de calidad, etc., pues mejor que mejor, estaremos entrenando a nuestra IA con datos de calidad y aprenderá a tener mejores conversaciones. Si fuésemos una empresa grande podríamos comprar directamente estos datos, pero aquí se trata de un proyecto Open Source, dónde por lo general el dinero no abunda. Así que necesita apoyarse en lo que se apoyan siempre las iniciativas “Open”: La comunidad.
Por ello, cualquiera, sin importar su formación técnica, puede colaborar con este proyecto sencillamente, ayudando a añadir conversaciones o etiquetando algunas de las ya existentes para poder entrenar a la IA.
Toda la información está en la web del proyecto, pero te aconsejo ver el vídeo de dotCVS dónde lo explica estupendamente:
Esta propuesta salió de otro vídeo, que también te dejo aquí, aunque en este caso está en ingles.