Conjunto de datos de transacciones que contiene todas las transacciones que ocurrieron entre el 01/12/2010 y el 09/12/2011 para una venta minorista en línea no basada en una tienda física y registrada en el Reino Unido. La empresa principalmente vende regalos únicos para todas las ocasiones. Muchos clientes de la empresa son mayoristas
datos_a.createOrReplaceTempView("tabla_datos") *crear vista
Podemos utilizar la función "col" para referirnos a una columna en un dataframe de una manera más eficiente y legible.
Estamos utilizando la función "col" para seleccionar las columnas del dataframe "datos_a" y convertir las columnas "Quantity" y "CustomerID" a tipo integer. Al utilizar la función "col", podemos referirnos a las columnas del dataframe de una manera clara y concisa.
También se pueden utilizar otras funciones de Pyspark como "lit", "concat", "substring", "sum", entre otras, junto con la función "col" para realizar operaciones más complejas en las columnas del dataframe.
para hacer consultas con datos numéricos, se suele recomendar cambiarles el tipo de dato en caso de que esten en “string”