Sto provando a verificare se un determinato valore è contenuto in una colonna python. Sto usando df.date.isin(['07311954'])
, che non dubito di essere un buon strumento. Il problema è che ho più di 350K righe e l'output non mostrerà tutti gli in modo da poter vedere se il valore è effettivamente contenuto. In parole povere, voglio solo sapere (S/N) se un valore specifico è contenuto o meno in una colonna. Il mio codice segue:Verificare se un determinato valore è contenuto in una colonna dataframe nei panda
import numpy as np
import pandas as pd
import glob
df = (pd.read_csv('/home/jayaramdas/anaconda3/Thesis/FEC_data/itpas2_data/itpas214.txt',\
sep='|', header=None, low_memory=False, names=['1', '2', '3', '4', '5', '6', '7', \
'8', '9', '10', '11', '12', '13', 'date', '15', '16', '17', '18', '19', '20', \
'21', '22']))
df.date.isin(['07311954'])
Penso che tu abbia eseguito il codice suggerito e ottengo ancora un elenco molto lungo e incompleto. –
Ho appena eseguito, stavo avendo alcuni errori di sintassi in precedenza così fermato per una pausa. Quando eseguo il codice sopra, indica la data del 1954; ma quando eseguo il codice sullo stesso set di dati dopo averlo implementato (http: // stackoverflow.it/questions/35939558/using-timegrouper-1m-to-group-and-sum-by-columns-is-messing-up-my-date-index-p/35957110 # 35957110) restituisce 'Empty DataFrame Colonne: [cmte_id, trans_typ, entity_typ, state, date, amount, fec_id, cand_id] Index: [] ' –
Jezrael, ho intenzione di esaminare nuovamente i file di dati e vedere quanti file hanno il mercato delle colonne di date con un data che è "fuori dall'intervallo". In teoria, tutte le mie date dovrebbero essere tra il 2007 e il 2014. C'è un modo per usare il codice che hai postato sopra ma stampare tutti i valori con le ultime 4 cifre tra il 2007 e il 2014? Vorrei anche cancellare tutte le righe che si verificano in quanto tali, ma prima ho bisogno di localizzarle in modo da poter informare l'origine dei dati dell'errore nei dati. Se puoi aiutarmi, sarebbe fantastico! –