11 gadus atpakaļ · 6b058962e1
--- a/searx/search.py
+++ b/searx/search.py
 
															 '''
														
 
															 import grequests
														
 
															+import re
														
 
															 from itertools import izip_longest, chain
														
 
															 from datetime import datetime
														
 
															 from operator import itemgetter
														
 
															     return process_callback
														
 
															+# return the meaningful length of the content for a result
														
 
															+def content_result_len(result):
														
 
															+    if isinstance(result.get('content'), basestring):
														
 
															+        content = re.sub('[,;:!?\./\\\\ ()-_]', '', result.get('content'))
														
 
															+        return len(content) 
														
 
															+    else:
														
 
															+        return 0
														
 
															 # score results and remove duplications
														
 
															 def score_results(results):
														
 
															         duplicated = False
														
 
															         # check for duplicates
														
 
															+        if 'content' in res:
														
 
															+            res['content'] = re.sub(' +', ' ', res['content'].strip().replace('\n', ''))
														
 
															+
														
 
															         for new_res in results:
														
 
															             # remove / from the end of the url if required
														
 
															             p1 = res['parsed_url'].path[:-1] if res['parsed_url'].path.endswith('/') else res['parsed_url'].path  # noqa
														
 
															         # merge duplicates together
														
 
															         if duplicated:
														
 
															             # using content with more text
														
 
															-            if res.get('content') > duplicated.get('content'):
														
 
															+            if content_result_len(res) > content_result_len(duplicated):
														
 
															                 duplicated['content'] = res['content']
														
 
															             # increase result-score