Elastic search not work correctly

Guten Tag zusammen,

ich bin mittlerweile auf SeafilePro 7.1.5 umgestiegen inkl. OnlyOffice.
Jedoch habe ich eine Wissenslücke was ElasticSearch angeht. Dies ist ja per default in der Professional Edition integriert oder sehe ich das falsch?

Die Suche funktioniert für mich so weit für Dokumenten - und Ordnernamen, jedoch sucht es nicht im Inhalt dieser Dokumente außer sie sind Officedokumente.

Wo ich gerade den Thread schreibe, merke ich das ich die vorhandenen PDF nicht mit OCR gescannt habe oder ist das egal?

Danke & Liebe Grüsse

Nachtrag: Ich habe ein Dokument mit OCR gescannt (SwiftScan). Fehler bleibt gleich, ich kann mich nach dem Inhaltlichen suchen sondern nur nach Dokumenten - Ordnername.

Liebe Grüße

Ich nutze die Pro Edition nicht, deswegen kann ich dir nicht sagen, was bei mir funktioniert hat.

https://manual.seafile.com/deploy_pro/details_about_file_search/
Hier steht, dass du das Indizieren für pdf-Dateien explizit erlauben musst und den Index danach neu erstellen musst. Da die Option index_office_pdf heißt, kann es natürlich gut sein, dass sie schon auf true gesetzt ist, wenn es bei dir für Officedokumente funktioniert. Aber wenn der Inhalt der pdf noch nicht indiziert ist, wirst du noch nix finden.

Vielleicht hilft dir das ja.

Habe ich gemacht und erhalte Folgendes:

–clear
Delete seafile search index ([y]/n)? y

Delete search index, this may take a while…

Traceback (most recent call last):
File “./pro/pro.py”, line 821, in
main()
File “./pro/pro.py”, line 818, in main
args.func(args)
File “./pro/pro.py”, line 706, in handle_search_commands
delete_search_index()
File “./pro/pro.py”, line 746, in delete_search_index
Utils.run_argv(argv, env=get_seafes_env())
File “./pro/pro.py”, line 108, in run_argv
proc = subprocess.Popen(argv,
File “/usr/lib/python3.8/subprocess.py”, line 854, in init
self._execute_child(args, executable, preexec_fn, close_fds,
File “/usr/lib/python3.8/subprocess.py”, line 1702, in _execute_child
raise child_exception_type(errno_num, err_msg, err_filename)
FileNotFoundError: [Errno 2] No such file or directory: ‘python’
sf@trdsap05:/datastore1/seafile/seafile-pro-server-7.1.5$ ./pro/pro.py search --update

Updating search index, this may take a while…

Traceback (most recent call last):
File “./pro/pro.py”, line 821, in
main()
File “./pro/pro.py”, line 818, in main
args.func(args)
File “./pro/pro.py”, line 704, in handle_search_commands
update_search_index()
File “./pro/pro.py”, line 726, in update_search_index
Utils.run_argv(argv, env=get_seafes_env())
File “./pro/pro.py”, line 108, in run_argv
proc = subprocess.Popen(argv,
File “/usr/lib/python3.8/subprocess.py”, line 854, in init
self._execute_child(args, executable, preexec_fn, close_fds,
File “/usr/lib/python3.8/subprocess.py”, line 1702, in _execute_child
raise child_exception_type(errno_num, err_msg, err_filename)
FileNotFoundError: [Errno 2] No such file or directory: ‘python’
sf@trdsap05:/datastore1/seafile/seafile-pro-server-7.1.5$

Sorry, da kann ich dir leider nicht weiterhelfen. Allerdings gibt es ja ein Problem beim Ausführen der Befehle, insbesondere no such file or directory: 'python' sieht merkwürdig aus.

Vielleicht weiß jemand anderes mehr

Beinhalten deine pdfs den Bilder statt Text? Ansonsten macht ja ein OCR-scannen ja keinen Sinn. Wenn deine pdfs Text enthalten kann elastic-search diese auch idizieren. Bilder natürlich nicht.

Ich habe das Dokument mit SwiftScan ehemals Scanbot (Abo) eingescannt. OCR ist auch aktiviert. Wenn ich das PDF auf dem Server öffne kann ich auch das Dokument öffnen und paar Zeilen z.B. auswählen und in mein Zwischenspeicher legen.

Ich denke ich weiß an was es liegt. Wahrscheinlich liegt es daran das ich Ubuntu 20.04 im Einsatz habe und dort entsprechend eine andere Version von Python installier ist.

Ich setzte morgen mal eine neue VM mit 18.04 LTS auf und installiere es 1:1 wie in der Manual steht.

Liebe Grüße