Este hecho tiene una importancia enorme, y se pasa por alto demasiado a menudo en los debates sobre el aprendizaje automático. He aquí otro hecho: los límites del mundo de un sistema de aprendizaje automático quedan precisamente establecidos por los conjuntos de datos que se le proporcionen durante su entrenamiento. El mundo real no deja de generar conjuntos de datos: veinticuatro horas al día, siete días a la semana, a perpetuidad. Por ello, cualquier conjunto de datos dado es solo una fracción muy pequeña de tiempo que representa, en el mejor de los casos, una evidencia parcial del comportamiento de los sistemas del mundo real. Ese es uno de los motivos por los que la larga cola de acontecimientos improbables resulta tan problemática: el sistema no cuenta con una comprensión verdadera del sistema real (en comparación con el simulado). Esto es de una importancia tremenda para los debates sobre el aprendizaje profundo y la inteligencia artificial general, y plantea una serie de consideraciones problemáticas sobre cómo, cuándo y hasta qué punto deberíamos confiar en unos sistemas que técnicamente no comprenden los fenómenos que están analizando (salvo por lo expresado en sus conjuntos de datos durante el entrenamiento). Volveremos sobre estos temas en capítulos posteriores, ya que son capitales para comprender el paisaje del mito.