2010-07-05 6 views
8

Sto cercando un parser di Microsoft Office basato su python, in particolare powerpoint.Microsoft Powerpoint Python Parser

Voglio essere in grado di analizzare PPT in python ed estrarre cose come testo e immagini dal file powerpoint.

È disponibile una libreria?

risposta

5

Non penso che ci sia una tale biblioteca.

Che cosa è possibile fare è utilizzare il pacchetto pywin32 per accedere a COM di PowerPoint.

Ecco una bella introduzione al utilizzando il modulo win32com per automatizzare le operazioni in PowerPoint qualcuno ha scritto: http://www.s-anand.net/blog/automating-powerpoint-with-python/

+0

Grazie! Ci sono adesso. Il collegamento è stato molto utile per capire come affrontare l'intero processo. – ramaz

3

Si potrebbe trovare una tale bestia, ma ci scommetterei contro; stai cercando due proprietà rare insieme.

Si potrebbe prendere in considerazione l'utilizzo dell'SDK Open Office, che dispone già di grandi quantità di macchinari per leggere i file dei punti di alimentazione e utilizzarli in modo improprio per i propri scopi. Questo è tutto Java, non Python, ma la mia ipotesi è la curva di apprendimento per imparare che Java è molto più piccolo della curva di apprendimento per capire come leggere i file di PowerPoint.