Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Duomenų perkėlimas iš PDF failo skaičiuoklės į „Microsoft Excel“ lapą visada yra „linksmas“. Ypač jei neturite brangios atpažinimo programinės įrangos, tokios kaip FineReader ar panašiai. Tiesioginis kopijavimas dažniausiai nieko gero neduoda, nes. įklijavus nukopijuotus duomenis į lapą, jie greičiausiai „susilips“ į vieną stulpelį. Taigi juos reikės kruopščiai atskirti naudojant įrankį Tekstas pagal stulpelius iš skirtuko Duomenys (Duomenys – tekstas į stulpelius).

Ir, žinoma, kopijuoti galima tik tuos PDF failus, kuriuose yra tekstinis sluoksnis, ty su ką tik nuskenuotu dokumentu iš popieriaus į PDF, tai iš esmės neveiks.

Bet tikrai nėra taip liūdna 🙂

Jei turite „Office 2013“ ar „2016“, tada per kelias minutes be papildomų programų visiškai įmanoma perkelti duomenis iš PDF į „Microsoft Excel“. Ir Word ir Power Query mums padės tai padaryti.

Pavyzdžiui, paimkime šią PDF ataskaitą su daugybe tekstų, formulių ir lentelių iš Europos ekonomikos komisijos svetainės:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

... ir pabandykite iš jo ištraukti „Excel“, pasakykite pirmąją lentelę:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Eime!

1 veiksmas. Atidarykite PDF „Word“.

Kažkodėl mažai kas žino, bet nuo 2013 m. Microsoft Word išmoko atidaryti ir atpažinti PDF failus (net ir nuskaitytus, tai yra be teksto sluoksnio!). Tai daroma visiškai standartiniu būdu: atidarykite Word, spustelėkite Failas – Atidaryti (Failas – Atidaryti) ir apatiniame dešiniajame lango kampe esančiame išskleidžiamajame sąraše nurodykite PDF formatą.

Tada pasirinkite mums reikalingą PDF failą ir spustelėkite Atviras (Atviras). „Word“ praneša, kad šiame dokumente bus paleista OCR, kad būtų galima siųsti tekstą:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Sutinkame ir po kelių sekundžių pamatysime, kad mūsų PDF bus atidarytas redaguoti programoje Word:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Žinoma, dizainas, stiliai, šriftai, antraštės ir poraštės ir pan., iš dalies nuskris nuo dokumento, bet mums tai nėra svarbu – mums reikia tik duomenų iš lentelių. Iš esmės šiame etape jau kyla pagunda tiesiog nukopijuoti lentelę iš atpažinto dokumento į Word ir tiesiog įklijuoti į Excel. Kartais tai pavyksta, bet dažniau tai lemia visokius duomenų iškraipymus – pavyzdžiui, skaičiai gali virsti datomis arba likti tekstu, kaip mūsų atveju, nes. PDF naudoja ne skyriklius:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Taigi neapkarpykime kampų, o padarykime viską šiek tiek sudėtingiau, bet teisingai.

2 veiksmas: išsaugokite dokumentą kaip tinklalapį

Norėdami vėliau įkelti gautus duomenis į Excel (per Power Query), mūsų dokumentą Word programoje reikia išsaugoti tinklalapio formatu – šiuo atveju šis formatas yra tam tikras bendras Word ir Excel vardiklis.

Norėdami tai padaryti, eikite į meniu Failas – Išsaugoti kaip (Failas – Išsaugoti kaip) arba paspauskite klavišą F12 klaviatūroje ir atsidariusiame lange pasirinkite failo tipą Tinklalapis viename faile (Tinklalapis – vienas failas):

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Išsaugoję turėtumėte gauti failą su mhtml plėtiniu (jei „Explorer“ matote failų plėtinius).

3 etapas. Failo įkėlimas į Excel per Power Query

Sukurtą MHTML failą galite atidaryti tiesiogiai „Excel“, bet tada gausime, pirma, visą PDF turinį kartu su tekstu ir krūva nereikalingų lentelių, ir, antra, vėl prarasime duomenis dėl neteisingo. separatoriai. Todėl importuosime į „Excel“ naudodami „Power Query“ priedą. Tai visiškai nemokamas priedas, su kuriuo galite įkelti duomenis į Excel beveik iš bet kokio šaltinio (failų, aplankų, duomenų bazių, ERP sistemų), o vėliau gautus duomenis visais įmanomais būdais transformuoti, suteikdami jiems norimą formą.

Jei turite „Excel 2010-2013“, galite atsisiųsti „Power Query“ iš oficialios „Microsoft“ svetainės – įdiegę pamatysite skirtuką „Power Query“. Jei turite „Excel 2016“ ar naujesnę versiją, jums nieko nereikia atsisiųsti – visos funkcijos jau yra įdiegtos „Excel“ pagal numatytuosius nustatymus ir yra skirtuke. Duomenys (Data) grupėje Atsisiųskite ir konvertuokite (Gauti ir transformuoti).

Taigi einame arba į skirtuką Duomenys, arba skirtuke „Power Query“ ir pasirinkti komandą Norėdami gauti duomenis or Sukurti užklausą – iš failo – iš XML. Kad būtų matomi ne tik XML failai, apatiniame dešiniajame lango kampe esančiame išskleidžiamajame sąraše pakeiskite filtrus į Visi failai (Visi failai) ir nurodykite mūsų MHTML failą:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Atminkite, kad importavimas nebus sėkmingai baigtas, nes. „Power Query“ tikisi iš mūsų XML, tačiau iš tikrųjų turime HTML formatą. Todėl kitame pasirodžiusiame lange turėsite dešiniuoju pelės mygtuku spustelėti „Power Query“ nesuprantamą failą ir nurodyti jo formatą:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Po to failas bus teisingai atpažintas ir pamatysime visų jame esančių lentelių sąrašą:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Lentelių turinį galite peržiūrėti paspaudę kairįjį pelės mygtuką baltame stulpelio Duomenys langelių fone (ne žodžio Lentelė!).

Kai bus apibrėžta norima lentelė, spustelėkite žalią žodį Lentelė – ir jūs „patenki“ į jo turinį:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

Belieka atlikti kelis paprastus veiksmus, kad „sušukuotų“ jo turinį, būtent:

  1. ištrinti nereikalingus stulpelius (dešiniuoju pelės mygtuku spustelėkite stulpelio antraštę - pašalinti)
  2. pakeiskite taškus kableliais (pasirinkite stulpelius, spustelėkite dešinįjį pelės klavišą – Vertybių pakeitimas)
  3. pašalinti lygybės ženklus antraštėje (pasirinkite stulpelius, dešiniuoju pelės mygtuku spustelėkite – Vertybių pakeitimas)
  4. nuimkite viršutinę eilutę (Pagrindinis – Ištrinti eilutes – Ištrinti viršutines eilutes)
  5. pašalinti tuščias eilutes (Pagrindinis – Ištrinti eilutes – Ištrinti tuščias eilutes)
  6. pakelti pirmąją eilutę į lentelės antraštę (Pagrindinis puslapis – naudokite pirmąją eilutę kaip antraštes)
  7. išfiltruokite nereikalingus duomenis naudodami filtrą

Kai lentelė įgauna įprastą formą, ją galima iškelti į lapą su komanda uždaryti ir atsisiųsti (Uždaryti ir įkelti) on Pagrindinis skirtuką. Ir mes gausime tokį grožį, su kuriuo jau galime dirbti:

Importuokite duomenis iš PDF į „Excel“ naudodami „Power Query“.

  • Stulpelio pavertimas lentele naudojant Power Query
  • Lipniojo teksto padalijimas į stulpelius

Palikti atsakymą