Speriamo di essere stupido e sarà facile.C'è un modo per filtrare un campo che non contiene qualcosa in un dataframe di scintilla usando scala?
Ho un dataframe che contiene l'url e il referrer delle colonne.
Voglio estrarre tutti i referrer che contengono il dominio di primo livello "www.mydomain.com" e "mydomain.co".
posso usare
val filteredDf = unfilteredDf.filter(($"referrer").contains("www.mydomain."))
Tuttavia, questo tira fuori l'url www.google.co.uk di ricerca URL che contiene anche il mio dominio web per qualche motivo. C'è un modo, usando scala in spark, che io possa filtrare qualsiasi cosa con google in esso mantenendo i risultati corretti che ho?
Grazie
Dean
Era il! $ "Referrer" che stavo cercando. Avrei dovuto provarlo ma l'approccio di monte carlo alla codifica diventa noioso e non sono riuscito a trovare alcuna documentazione a riguardo. Grazie! – Dean
ehi! aiuto !, un modo per raggiungere questo risultato confrontando una colonna? come $ "referrer" .contains ($ "colonna-che-shouldnt-match") –
@ zero323 fa questo lavoro per la versione specifica pyspark, sto ottenendo importazione org.apache.spark.sql.functions.not DELV_all_cleaned_df2 = DELV_all_cleaned_df.where (non ($ 'DELIV_LOC_DESC'.contains (espressione))) importazione org.apache.spark.sql.functions.not DELV_all_cleaned_df2 = DELV_all_cleaned_df.where (non ($' DELIV_LOC_DESC'.contains (espressione))) sintassi non valida (, linea 1) File "", la linea 1 importazione org.apache.spark.sql.functions.not ^ SyntaxError: invalid syntax –