İçinde yazı olan resimleri text dosyasına topluca dönüştürmek

Zeuszeus2023 · 17 Mart 2022

Jpg halinde bir sürü screenshot halinde yazılarım var.
Bunları texte dönüştürmek istiyorum.

Evernote buna benzer bir şey yapıyor ama direkt yapmadığı ve sunuculu olduğu için onu tercih etmiyorum.

Resim içindeki yazıları alıp text dosyası olarak çıkartılabilecek bir program var mı?

cafyon · 17 Mart 2022

Tesseract ya da Ghostscript. Dosya eklenebiliyorsa kendi batch'imi göndereyim.
Önce Tesseract-OCR'ı kurun.
Windows binary'leri: Home · UB-Mannheim/tesseract Wiki
Tesseract-OCR kaynak kodu: Release 5.1.0 · tesseract-ocr/tesseract
Tesseract-OCR anasayfası: Tesseract documentation
Türkçe sözlük nereden indiriliyordu hatırlamıyorum ama adı: tur.traineddata
İnternette ararsınız.
Tesseract-OCR yalnız görüntü dosyaları ile çalışıyor. PDF, PS, djvu, mobi, vs. ile çalışmıyor.
Dosya adı veya yol/path'inde Türkçemize özgü harf bulunmamalı.
Benim kullandığım Windows batch:

Kod:

@ECHO OFF
CHCP 65001 >NUL
SETLOCAL EnableDelayedExpansion EnableExtensions
SET ATTR=%~a1
SET DIRATTR=%ATTR:~0,1%
SET TACTEXEPATH="%PROGRAMFILES%\Tesseract-OCR\tesseract.exe"
IF /I "%DIRATTR%"=="d" (
    PUSHD %1
    FOR /F "delims=" %%I in ('dir /A-D /B *.tif *.tiff *.jpg *.jpeg *.bmp 2^>NUL') DO (
        CALL :TACTRUN "%~dpnx1\%%I"
)) ELSE (
    FOR %%f in (%*) DO (
        CALL :TACTRUN %%f
))
PAUSE
GOTO :EOF
:TACTRUN
ECHO OCRing %~nx1 in "%~dp1" via Tesseract
%TACTEXEPATH% -l tur %1 %1
REM %TACTEXEPATH% -l tur %1 "%~dpnx1"
:EOF
REM        PUSHD %1
REM    FOR /F "delims=" %%I in ('dir /A-D /B *.tif *.tiff *.jpg
ENDLOCAL

Bu batch'i güzel bir adla kaydedin. Ona bir kısayol oluşturun. OCR yapmak istediğiniz,
- tek görüntü dosyasını
- çok sayıda görüntü dosyasını
- tek/çok sayıda görüntü dosyası içeren tek bir klasörü
... kısayol üzerine sürükle bırak yapın.
Veya ek olarak, SendTo'ya koyun kısayolunu.
Yukarıdaki kodda, sadece, .jpg, .jpeg, tif, .tiff, .bmp'ler için yazlmış. Diğerlerini denemek gerekli.

Zeuszeus2023 · 17 Mart 2022

cafyon dedi:
Tesseract ya da Ghostscript. Dosya eklenebiliyorsa kendi batch'imi göndereyim.
Önce Tesseract-OCR'ı kurun.
Windows binary'leri: Home · UB-Mannheim/tesseract Wiki
Tesseract-OCR kaynak kodu: Release 5.1.0 · tesseract-ocr/tesseract
Tesseract-OCR anasayfası: Tesseract documentation
Türkçe sözlük nereden indiriliyordu hatırlamıyorum ama adı: tur.traineddata
İnternette ararsınız.
Tesseract-OCR yalnız görüntü dosyaları ile çalışıyor. PDF, PS, djvu, mobi, vs. ile çalışmıyor.
Dosya adı veya yol/path'inde Türkçemize özgü harf bulunmamalı.
Benim kullandığım Windows batch:

Kod:

@ECHO OFF CHCP 65001 >NUL SETLOCAL EnableDelayedExpansion EnableExtensions SET ATTR=%~a1 SET DIRATTR=%ATTR:~0,1% SET TACTEXEPATH="%PROGRAMFILES%\Tesseract-OCR\tesseract.exe" IF /I "%DIRATTR%"=="d" ( PUSHD %1 FOR /F "delims=" %%I in ('dir /A-D /B *.tif *.tiff *.jpg *.jpeg *.bmp 2^>NUL') DO ( CALL :TACTRUN "%~dpnx1\%%I" )) ELSE ( FOR %%f in (%*) DO ( CALL :TACTRUN %%f )) PAUSE GOTO :EOF :TACTRUN ECHO OCRing %~nx1 in "%~dp1" via Tesseract %TACTEXEPATH% -l tur %1 %1 REM %TACTEXEPATH% -l tur %1 "%~dpnx1" :EOF REM PUSHD %1 REM FOR /F "delims=" %%I in ('dir /A-D /B *.tif *.tiff *.jpg ENDLOCAL

Bu batch'i güzel bir adla kaydedin. Ona bir kısayol oluşturun. OCR yapmak istediğiniz,
- tek görüntü dosyasını
- çok sayıda görüntü dosyasını
- tek/çok sayıda görüntü dosyası içeren tek bir klasörü
... kısayol üzerine sürükle bırak yapın.
Veya ek olarak, SendTo'ya koyun kısayolunu.
Yukarıdaki kodda, sadece, .jpg, .jpeg, tif, .tiff, .bmp'ler için yazlmış. Diğerlerini denemek gerekli.

Batch ne demek?

cafyon · 17 Mart 2022

Silinen üye dedi:
Batch ne demek?

Ouv. Yukarıda yazdıklarımı boşverim. Batch, işletim sistemlerinin konsol (console) kabuğu (shell) yığın (batch) sistemidir. DOS'tan gelen Windows'a da geçmiş olan, DOS/Windows batch de, Windows'un kabuk yığın sistemidir.

Toplu iş dosyası - Vikipedi

tr.wikipedia.org

Size ben yardımcı olamam.

Zeuszeus2023 · 17 Mart 2022

cafyon dedi:
Tesseract ya da Ghostscript. Dosya eklenebiliyorsa kendi batch'imi göndereyim.
Önce Tesseract-OCR'ı kurun.
Windows binary'leri: Home · UB-Mannheim/tesseract Wiki
Tesseract-OCR kaynak kodu: Release 5.1.0 · tesseract-ocr/tesseract
Tesseract-OCR anasayfası: Tesseract documentation
Türkçe sözlük nereden indiriliyordu hatırlamıyorum ama adı: tur.traineddata
İnternette ararsınız.
Tesseract-OCR yalnız görüntü dosyaları ile çalışıyor. PDF, PS, djvu, mobi, vs. ile çalışmıyor.
Dosya adı veya yol/path'inde Türkçemize özgü harf bulunmamalı.
Benim kullandığım Windows batch:

Kod:

@ECHO OFF CHCP 65001 >NUL SETLOCAL EnableDelayedExpansion EnableExtensions SET ATTR=%~a1 SET DIRATTR=%ATTR:~0,1% SET TACTEXEPATH="%PROGRAMFILES%\Tesseract-OCR\tesseract.exe" IF /I "%DIRATTR%"=="d" ( PUSHD %1 FOR /F "delims=" %%I in ('dir /A-D /B *.tif *.tiff *.jpg *.jpeg *.bmp 2^>NUL') DO ( CALL :TACTRUN "%~dpnx1\%%I" )) ELSE ( FOR %%f in (%*) DO ( CALL :TACTRUN %%f )) PAUSE GOTO :EOF :TACTRUN ECHO OCRing %~nx1 in "%~dp1" via Tesseract %TACTEXEPATH% -l tur %1 %1 REM %TACTEXEPATH% -l tur %1 "%~dpnx1" :EOF REM PUSHD %1 REM FOR /F "delims=" %%I in ('dir /A-D /B *.tif *.tiff *.jpg ENDLOCAL

Bu batch'i güzel bir adla kaydedin. Ona bir kısayol oluşturun. OCR yapmak istediğiniz,
- tek görüntü dosyasını
- çok sayıda görüntü dosyasını
- tek/çok sayıda görüntü dosyası içeren tek bir klasörü
... kısayol üzerine sürükle bırak yapın.
Veya ek olarak, SendTo'ya koyun kısayolunu.
Yukarıdaki kodda, sadece, .jpg, .jpeg, tif, .tiff, .bmp'ler için yazlmış. Diğerlerini denemek gerekli.

Kullanıcı dostu değil.
Anlamadım.
Kullanamadım.

cafyon · 17 Mart 2022

Silinen üye dedi:
Kullanıcı dostu değil.
Anlamadım.
Kullanamadım.

Boşver dedim zaten. Sana göre değil. Ama "kullanıcı dostu" olmadığına katılmıyorum.

İçinde yazı olan resimleri text dosyasına topluca dönüştürmek

Ayrıntılı düzenleme

Zeuszeus2023

Hectopat

cafyon

Decapat

Zeuszeus2023

Hectopat

cafyon

Decapat

Toplu iş dosyası - Vikipedi

Zeuszeus2023

Hectopat

cafyon

Decapat

Benzer konular

Yeni konular

Yeni mesajlar

Gizliliğinize önem veriyoruz