2012-04-23 9 views
15

Ho bisogno di leggere un file di testo codificato in GBK. La libreria standard nel linguaggio di programmazione Go presuppone che tutto il testo sia codificato in UTF-8.Lettura di un file di testo non UTF-8 in Go

Come posso leggere i file in altre codifiche?

+0

Perché i downvotes? –

+0

Sembra una domanda molto ragionevole e chiara, che vota per riaprire (anche nella sua forma originale) – OscarRyz

risposta

13

Precedentemente (come menzionato in una risposta precedente) il modo "facile" per fare ciò comportava l'utilizzo di pacchetti di terze parti che avevano bisogno di cgo e avvolgevano la libreria iconv. Questo è indesiderabile per molte ragioni. Per fortuna, per un bel po 'di tempo c'è stato un modo migliore di fare tutto questo usando solo i pacchetti forniti dai Go Authors (non nel set principale di pacchetti ma nello Go Sub-Repositories).

Il pacchetto golang.org/x/text/encoding definisce un'interfaccia per codifiche di caratteri generici che possono essere convertite in/da UTF-8. Il pacchetto secondario golang.org/x/text/encoding/simplifiedchinese fornisce le implementazioni di codifica GB18030, GBK e HZ-GB2312.

Ecco un esempio di lettura e scrittura di un file codificato GBK. Si noti che il io.Reader e io.Writer eseguono la codifica "al volo" mentre i dati vengono letti/scritti.

package main 

import (
    "bufio" 
    "fmt" 
    "log" 
    "os" 

    "golang.org/x/text/encoding/simplifiedchinese" 
    "golang.org/x/text/transform" 
) 

// Encoding to use. Since this implements the encoding.Encoding 
// interface from golang.org/x/text/encoding you can trivially 
// change this out for any of the other implemented encoders, 
// e.g. `traditionalchinese.Big5`, `charmap.Windows1252`, 
// `korean.EUCKR`, etc. 
var enc = simplifiedchinese.GBK 

func main() { 
    const filename = "example_GBK_file" 
    exampleWriteGBK(filename) 
    exampleReadGBK(filename) 
} 

func exampleReadGBK(filename string) { 
    // Read UTF-8 from a GBK encoded file. 
    f, err := os.Open(filename) 
    if err != nil { 
     log.Fatal(err) 
    } 
    r := transform.NewReader(f, enc.NewDecoder()) 

    // Read converted UTF-8 from `r` as needed. 
    // As an example we'll read line-by-line showing what was read: 
    sc := bufio.NewScanner(r) 
    for sc.Scan() { 
     fmt.Printf("Read line: %s\n", sc.Bytes()) 
    } 
    if err = sc.Err(); err != nil { 
     log.Fatal(err) 
    } 

    if err = f.Close(); err != nil { 
     log.Fatal(err) 
    } 
} 

func exampleWriteGBK(filename string) { 
    // Write UTF-8 to a GBK encoded file. 
    f, err := os.Create(filename) 
    if err != nil { 
     log.Fatal(err) 
    } 
    w := transform.NewWriter(f, enc.NewEncoder()) 

    // Write UTF-8 to `w` as desired. 
    // As an example we'll write some text from the Wikipedia 
    // GBK page that includes Chinese. 
    _, err = fmt.Fprintln(w, 
     `In 1995, China National Information Technology Standardization 
Technical Committee set down the Chinese Internal Code Specification 
(Chinese: 汉字内码扩展规范(GBK); pinyin: Hànzì Nèimǎ 
Kuòzhǎn Guīfàn (GBK)), Version 1.0, known as GBK 1.0, which is a 
slight extension of Codepage 936. The newly added 95 characters were not 
found in GB 13000.1-1993, and were provisionally assigned Unicode PUA 
code points.`) 
    if err != nil { 
     log.Fatal(err) 
    } 

    if err = f.Close(); err != nil { 
     log.Fatal(err) 
    } 
} 
5

Prova go-iconv. Confeziona iconv e implementa io.Reader e io.Writer.

Questo message nel gruppo di discussione golang-china menziona alcuni esempi di utilizzo di go-iconv.

+0

Un'altra opzione sarebbe quella di leggere il file come un blob opaco in un buffer e quindi interpretarlo come testo in una particolare codifica utilizzando [go-charset] (http://code.google.com/p/go-charset); vedi [questa domanda] (http://stackoverflow.com/q/10039701/720999) per maggiori informazioni. Non ho guardato il codice, ma sembra che per supportare un insieme di codifiche/codifiche legacy più usate, questo pacchetto non ha bisogno di iconv che potrebbe essere un vantaggio. – kostix

+0

@kostix Dalle informazioni sul frontespizio di http://code.google.com/p/go-charset sembra che in caso di gbk il pacchetto usi la libreria iconv di GNU. –

+0

Questo pacchetto può essere utilizzato anche per eseguire la trasformazione: https://godoc.org/golang.org/x/text/encoding – OscarRyz