¿Qué es el aprendizaje automático y en qué se diferencia de la inteligencia artificial, el procesamiento de lenguajes naturales y el aprendizaje profundo?
Cuando la gente habla de la inteligencia de datos suele mencionar de forma intercambiable términos como aprendizaje automático (AA), inteligencia artificial (IA), procesamiento de lenguajes naturales (PLN) y aprendizaje profundo (AP). ¿Pero cuál es la diferencia entre estos métodos? ¿O acaso significan lo mismo?
La inteligencia artificial (IA) es el modo más amplio de describir sistemas capaces de “pensar”, o, en otras palabras, simular la inteligencia humana. Por ejemplo, una reciente aplicación de vanguardia de la IA es la autentificación biométrica a través de reconocimiento facial, capaz de identificar y verificar a una persona empleando rasgos faciales en una imagen o vídeo almacenado en una base de datos.
El procesamiento de lenguajes naturales (PLN) es la capacidad de entrenar a ordenadores para comprender tanto texto escrito como el habla humana. Algunas de las principales aplicaciones del PLN son tareas como traducción, filtrado de mensajes de correo electrónico, asistentes de voz inteligentes, extracción de términos clave, etc.
No obstante, para automatizar estos procesos y obtener respuestas precisas es necesario utilizar aprendizaje automático. Así, este último se utiliza a menudo como herramienta para PLN.
El aprendizaje automático combina ciencias informáticas y estadística para permitir a los ordenadores aprender sin ser programados de forma específica.
El aprendizaje automático (AA) es un subconjunto de la IA que combina ciencias informáticas y estadística para permitir a los ordenadores aprender sin ser programados de forma específica. Durante gran parte de la historia del ordenador, los programadores han tenido que dar instrucciones explícitas sobre qué resultado era adecuado para una entrada determinada, con lo que los programas no aprendían de nuevos datos y experiencias pasadas. El AA redefine radicalmente esta relación: da a los ordenadores un marco de referencia para adaptarse a nuevos datos y “aprender” dinámicamente de la experiencia, en lugar de depender de reglas mecánicas.
Imaginemos que instalamos un temporizador a una bombilla. Sin AA, el programador definiría exactamente cuándo debe encenderse y apagarse, y el ordenador ejecutaría esas instrucciones sin intervención alguna. Con AA, el ordenador analizaría patrones de cuándo la bombilla se enciende y se apaga, y “aprendería” cuándo debe estar encendida y apagada. El ordenador también observaría eventuales anulaciones de sus decisiones e incluiría esos nuevos datos en sus cálculos.
El aprendizaje profundo (AP) es un método específico de aprendizaje automático que utiliza redes neurales para aprender de datos de forma iterativa. Se utiliza especialmente para abordar problemas de datos mal definidos y tratar de derivar y aprender patrones a partir de los mismos. Algunas de sus aplicaciones son la detección de fraude, los vehículos autónomos o la IA vocal.
¿A qué se debe la popularidad del aprendizaje automático?
El aprendizaje automático (AA) se está convirtiendo en uno de los temas más populares en el ámbito de la tecnología y, de hecho, mucha gente ni siquiera se da cuenta de lo estrechamente vinculado que está con su vida cotidiana. Pese a las mejoras de los algoritmos de AA durante el siglo XX, los demás ingredientes necesarios para elevar la potencia de esta tecnología (el procesamiento eficiente y la inteligencia de datos) no han estado disponibles hasta la década pasada. La mayor disponibilidad de datos debido a la digitalización de nuestras vidas ha proporcionado abundante información bruta que el AA ha podido interpretar.
Gran parte de esta nueva información está almacenada como datos no estructurados, información en forma de texto, sonido e imágenes que no puede volcarse fácilmente en una tabla. Analizar grandes cantidades de datos no estructurados exige mucha capacidad computacional, y ha requerido mejoras de la tecnología informática para permitir a los profesionales descubrir las perspectivas escondidas en esta nueva avalancha de datos. La confluencia de mejor equipamiento y del crecimiento explosivo de los datos, y el ciclo virtuoso entre ambos, han conducido al crecimiento exponencial de la utilidad del AA en los últimos años.
Los ordenadores son más rápidos | Los datos no estructurados dominan la inteligencia de datos |
Hace veinte años, muchos de los recursos invertidos en el desarrollo del AA se concentraban en elevar la rapidez con la que programas podían evaluar millones de posibilidades distintas. | Hace dos décadas, gran parte de los datos que se guardaban estaban estructurados, con lo que se podían representar fácilmente mediante números y almacenarse en tablas. Al hablar de datos, la gente suele pensar en grandes hojas de cálculo llenas de números y almacenadas en ordenadores. |
Hoy en día, los desarrolladores de AA se concentran en enseñar a las máquinas a identificar relaciones escondidas en conjuntos de datos enormes. | Hoy en día, sin embargo, un 90% de todos los datos digitales a nivel mundial son no estructurados, y abarcan todo el espectro de información, desde informes de análisis de asesores de inversión y registro de chat de servicio al cliente, hasta archivos de música y vídeos de gatos2. |
El coste de procesamiento ha disminuido de forma monumental. Instalar en paralelo unidades de procesamiento individuales ha permitido un cálculo más rápido aún, y el crecimiento de la computación en la nube a reducido más si cabe el coste de la capacidad de procesamiento, haciéndola al mismo tiempo mucho más accesible1. | Ventajas: los datos en formato de vídeo y habla humana contienen mucha más información que las cifras en una hoja de cálculo. |
| Inconvenientes: por su naturaleza, los datos no estructurados son más difíciles de procesar y analizar. |

- 1. Terry, Heath P, et al. Artificial Intelligence. Goldman Sachs Investment Research.
- 2. Vijayan, Jaikumar. “Solving the Unstructured Data Challenge”. CIO de IDG, 25 de junio de 2015. Únicamente a efectos ilustrativos.