Gestisco IMDbAPI.com e sto usando l'API di ricerca di Bing per la ricerca degli ID di IMDb dalle ricerche dei titoli. Bing sta attualmente modificando le proprie API sul Marketplace di Azure (1 ° agosto) e non è più disponibile gratuitamente. Ho iniziato a testare la mia API utilizzando Freebase per risolvere questi ID e raggiungere il limite di 100k nelle prime 8 ore (il mio sito riceve attualmente circa 3 milioni di richieste al giorno, ma solo 200-300k sono ricerche di titolo)Freebase: quale file di dettagli dei dati contiene "imdb_id"?
Questo è esattamente il motivo per cui offrono i file di dump dei dati,
Ho scaricato la maggior parte dei file nella cartella Film ma non riesco a trovare dove stanno memorizzando i dati dello spazio dei nomi imdb id "/ authority/imdb/title".
Questo è come mi sto attualmente l'accesso alla ID.
Qualcuno sa quale file contiene queste informazioni? e come ricollegarlo dal titolo/id del film?
Stavo cercando di evitare il file 4gig (33gig estratto), ma l'ho scaricato comunque e trascorso le ultime 3 ore cercando di trovare QUALSIASI COSA per aprirlo/analizzarlo. Ho finito con l'utilizzo di Log Parser 2.2 di Microsoft, che ha funzionato alla grande! LogParser.exe -i: TSV "Seleziona Col1, Col4 INTO C: \ imdbList.csv DA C: \ freebase.tsv DOVE Col3 mi piace '% imdb/titolo%'" -o: CSV -header: OFF -iHeaderFile: "C: \ header.txt" Quindi ora ho un file CSV di 3mb che ha tutti gli ID di ID e ID di Freebase – bfritz
Successivamente ho bisogno di ottenere il "Titolo", "Anno di rilascio" e "Alias" dal "Film". tsv "quindi posso unire i dati in SQL ... E finalmente essere in grado di cercare :) Ma sto facendo affidamento sul file in più dalla cartella Sfoglia" Films.tsv "che stanno andando via presto? – bfritz
Probabilmente è più veloce (e sicuramente meno spazio su disco) per elaborare il file compresso, quindi non lo decomprimerò. Qualsiasi sistema Linux (o Cygwin su Windows) può elaborare questo banalmente senza scaricare strane utilità proprietarie. Il comando equivalente è bzgrep "authority/imdb/title" freebase-datadump-quadruples.tsv.bz2 | cut -f 1,4> imdbList.csv Anche su un laptop può decomprimere e cercare quel file da 4 GB e produrre 142K coppie di ID in meno di 20 minuti. –