ability to prioritize popular languages over uncommon languages

2017-02-26 17:05:55 -08:00 · 2017-02-26 17:05:55 -08:00 · 8c2685696c
commit 8c2685696c
parent 9ce9d528fd
4 changed files with 74 additions and 5 deletions
--- a/tests/samples/codefiles/perl.pl
+++ b/tests/samples/codefiles/perl.pl
@ -0,0 +1 @@
--- a/tests/test_languages.py
+++ b/tests/test_languages.py
@ -190,7 +190,7 @@ class LanguagesTestCase(utils.TestCase):
                language = None
                self.assertEqual(self.patched['wakatime.offlinequeue.Queue.push'].call_args[0][0].get('language'), language)
-    def test_typescript_detected_correctly(self):
+    def test_typescript_detected_over_typoscript(self):
        response = Response()
        response.status_code = 500
        self.patched['wakatime.packages.requests.adapters.HTTPAdapter.send'].return_value = response
@ -205,3 +205,19 @@ class LanguagesTestCase(utils.TestCase):
        language = u('TypeScript')
        self.assertEqual(self.patched['wakatime.offlinequeue.Queue.push'].call_args[0][0].get('language'), language)
    def test_perl_detected_over_prolog(self):
        response = Response()
        response.status_code = 500
        self.patched['wakatime.packages.requests.adapters.HTTPAdapter.send'].return_value = response
        now = u(int(time.time()))
        config = 'tests/samples/configs/good_config.cfg'
        entity = 'tests/samples/codefiles/perl.pl'
        args = ['--file', entity, '--config', config, '--time', now]
        retval = execute(args)
        self.assertEquals(retval, 102)
        language = u('Perl')
        self.assertEqual(self.patched['wakatime.offlinequeue.Queue.push'].call_args[0][0].get('language'), language)
--- a/wakatime/packages/pygments/lexers/javascript.py
+++ b/wakatime/packages/pygments/lexers/javascript.py
@ -450,7 +450,6 @@ class TypeScriptLexer(RegexLexer):
    aliases = ['ts', 'typescript']
    filenames = ['*.ts', '*.tsx']
    mimetypes = ['text/x-typescript']
    priority = 0.11
    flags = re.DOTALL | re.MULTILINE
--- a/wakatime/stats.py
+++ b/wakatime/stats.py
@ -18,10 +18,12 @@ from .compat import u, open
 from .dependencies import DependencyParser
 from .packages.pygments.lexers import (
    _iter_lexerclasses,
    _fn_matches,
    basename,
    ClassNotFound,
    find_lexer_class,
    get_lexer_by_name,
    guess_lexer_for_filename,
 )
 from .packages.pygments.modeline import get_filetype_from_buffer
@ -99,7 +101,7 @@ def smart_guess_lexer(file_name):
        lexer = lexer1
    if (lexer2 and accuracy2 and
        (not accuracy1 or accuracy2 > accuracy1)):
-        lexer = lexer2  # pragma: nocover
+        lexer = lexer2
    return lexer
@ -113,7 +115,7 @@ def guess_lexer_using_filename(file_name, text):
    lexer, accuracy = None, None
    try:
-        lexer = guess_lexer_for_filename(file_name, text)
+        lexer = custom_pygments_guess_lexer_for_filename(file_name, text)
    except:
        pass
@ -263,3 +265,54 @@ def get_file_head(file_name):
        except:
            log.traceback(logging.DEBUG)
    return text
 def custom_pygments_guess_lexer_for_filename(_fn, _text, **options):
    """Overwrite pygments.lexers.guess_lexer_for_filename to customize the
    priority of different lexers based on popularity of languages."""
    fn = basename(_fn)
    primary = {}
    matching_lexers = set()
    for lexer in _iter_lexerclasses():
        for filename in lexer.filenames:
            if _fn_matches(fn, filename):
                matching_lexers.add(lexer)
                primary[lexer] = True
        for filename in lexer.alias_filenames:
            if _fn_matches(fn, filename):
                matching_lexers.add(lexer)
                primary[lexer] = False
    if not matching_lexers:
        raise ClassNotFound('no lexer for filename %r found' % fn)
    if len(matching_lexers) == 1:
        return matching_lexers.pop()(**options)
    result = []
    for lexer in matching_lexers:
        rv = lexer.analyse_text(_text)
        if rv == 1.0:
            return lexer(**options)
        result.append((rv, customize_priority(lexer)))
    def type_sort(t):
        # sort by:
        # - analyse score
        # - is primary filename pattern?
        # - priority
        # - last resort: class name
        return (t[0], primary[t[1]], t[1].priority, t[1].__name__)
    result.sort(key=type_sort)
    return result[-1][1](**options)
 CUSTOM_PRIORITIES = {
    'perl': 0.1,
    'perl6': 0.1,
    'typescript': 0.11,
 }
 def customize_priority(lexer):
    """Return an integer priority for the given lexer object."""
    if lexer.name.lower() in CUSTOM_PRIORITIES:
        lexer.priority = CUSTOM_PRIORITIES[lexer.name.lower()]
    return lexer