Načini segmentacije slikovne strani v optičnem prepoznavanju znakov (OCR) Arigamix CRM

Arigamix CRM z vgrajenim OCR modulom

Prihajajoči Arigamix CRM ima učinkovit in uporabniku prijazen modul za optično prepoznavanje znakov (OCR). Po končanem procesu odčitavanja dokumenta lahko uporabnik izbere pogled na prepoznane podatke za lažje polnjenje metapodatkov. Poleg privzete možnosti lahko uporabnik počisti trenutno nepotrebne elemente in pusti samo en pogled, pri čemer lahko izbira med: besedilom, odstavkom, vrstico, besedo, tabelo ali črtno kodo. Elementi, ki so prepoznani v izbranem pogledu, so označeni z različnimi barvami za lažjo obdelavo podatkov.

Kaj je način segmentacije slikovne strani?

Način segmentacije slikovne strani nastavi pravilo za razdelitev slike na dele in analizira celotno sliko za nadaljnjo obdelavo. Omogoča vam, da orodju za prepoznavanje poveste, kako naj analizira in obdela vhodne podatke. Odvisno od različnih načinov lahko dobimo različne rezultate. Torej, natančneje kot je izbran način prepoznavanja, natančnejši bo izhodni rezultat – prepoznano besedilo.

Vrste načinov segmentacije slikovnih strani

0. Zaznavanje orientacije in jezikovne pisave brez segmentacije slikovne strani in zaznavanje optičnega prepoznavanja način je administrativni in ne izvaja OCR, ampak le pomaga določiti: orientacijo strani v stopinjah 0, 90, 180, 270 in zanesljivost pisave (tj. grafični znaki / pisni sistem), kot so latinica, cirilica itd. .d.

1. Samodejna segmentacija slikovnih strani z orientacijo in zaznavanjem skripta samodejno zazna postavitev strani in položaj besedila na njej, izvede optično prepoznavanje besedila, določi orientacijo strani in zanesljivost pisave

2. Samodejna segmentacija strani s slikami brez zaznavanja orientacije, jezikovne pisave in optičnega prepoznavanja

3. Samodejna segmentacija slikovne strani brez zaznavanja orientacije in jezikovne pisave je enak načinu 1, vendar se pri izvajanju OCR ne izvedejo nobene operacije za določitev usmerjenosti strani s sliko in zanesljivosti pisave. Zato bo orodje za prepoznavanje segmentiralo besedilo in ga obravnavalo kot “pravilno stran” besedila z več besedami, več vrsticami, več odstavki itd. Če želite določiti usmerjenost strani in zanesljivost pisave, morate najprej izvesti prepoznavanje z načinom 1, in nato z načinom 3.

4. Segmentacija strani s slikami kot en sam stolpec z besedilom spremenljive velikosti brez zaznavanja orientacije in jezikovne pisave način je potrebno uporabiti, ko morate prepoznati podatke stolpca in želite, da je besedilo povezano vrstico za vrstico (na primer tabelarni podatki ali potrdila). Ko se izvede optično prepoznavanje, se ne izvedejo nobene operacije za določitev usmerjenosti strani slike in zanesljivosti pisave.

5. Segmentacija slikovne strani kot en enoten blok navpično poravnanega besedila brez zaznavanja orientacije in jezikovne pisave je podoben načinu 4, vendar le za sliko, zasukano za 90 stopinj v smeri urinega kazalca.

6. Segmentacija slikovne strani kot en sam homogen blok z navpično poravnanim besedilom je najprimernejši način za prepoznavanje strani, kot so strani knjig, ki običajno uporabljajo isto pisavo in gosto besedilo v celotni knjigi. Ključna beseda tukaj je enotno besedilo, kar pomeni, da je besedilo v eni pisavi brez kakršnih koli sprememb.

7. Segmentacija slikovne strani kot ena vrstica z besedilom brez orientacije in zaznavanja pisave jezika je potrebna pri delu z eno vrstico univerzalnega besedila. Na primer, način se lahko uporablja, ko je treba prepoznati registrske tablice ali katere koli kode.

8. Segmentacija slikovne strani kot ena beseda brez zaznavanja orientacije in jezikovne pisave način je potrebno uporabiti pri delu z eno besedo univerzalnega besedila. Na primer, način se lahko uporablja, ko je treba prepoznati registrske tablice ali katere koli kode.

9. Segmentacija slikovne strani kot beseda v krogu ali beseda v krogu brez zaznavanja orientacije in jezikovne pisave način je potrebno uporabiti, ko je besedilo na sliki znotraj kroga ali se ovija okoli nevidnega krožnega območja ali območja loka.

10. Segmentacija strani s sliko kot en znak brez zaznavanja orientacije in jezikovne pisave Ta način je potrebno uporabiti, ko je treba prepoznati en znak na sliki. Običajno ga je treba uporabiti, ko je slika razdeljena na posamezne znake (recimo registrsko tablico) in potem morate prepoznati vsakega od znakov. Ta pristop bo zagotovil večjo natančnost kot popolno prepoznavanje registrskih tablic, vendar bo zahteval več sredstev.

11. Segmentacija slikovne strani kot zbirka besed brez določenega vrstnega reda brez zaznavanja orientacije in jezikovne pisave Ta način je potrebno uporabiti, ko je na sliki veliko redkega besedila, ki ga je treba ekstrahirati. Pri tem ni pomembna struktura dokumenta, vrstni red in združevanje besedila, pomembno je samo besedilo.

12. Segmentacija slikovne strani kot redko besedilo z zaznavanjem orientacije in jezikovne pisave Ta način je podoben načinu 11, vendar upošteva tudi orientacijo v stopinjah 0, 90, 180, 270 in določa zanesljivost pisave.

13. Segmentacija slikovne strani kot ena besedilna vrstica brez zaznavanja orientacije in jezikovne pisave Ta način deluje podobno kot način 7, vendar ga je potrebno uporabiti, ko zaslonski meni, segmentacija in druge notranje metode predprocesiranja, specifične za OCR, poslabšajo zmogljivost OCR: zmanjšana natančnost, besedilo ni zaznano. To se ponavadi zgodi, če je del besedila močno odrezan, je besedilo na nek način računalniško ustvarjeno ali če gre za pisavo, ki je orodje za prepoznavanje morda ne bo samodejno prepoznalo.

#Arigamix #CRM #OCRmodul #opticalcharacterrecognition #opticnoprepoznavanjeznakov #SaaS #subscribe #cloudsolutions