rana-cli/wakatime/stats.py

# -*- coding: utf-8 -*-
"""
    wakatime.stats
    ~~~~~~~~~~~~~~

    Stats about files

    :copyright: (c) 2013 Alan Hamlett.
    :license: BSD, see LICENSE for more details.
"""

import logging
import os
import sys

from .compat import u, open
from .dependencies import DependencyParser

from .packages.pygments.lexers import (
    ClassNotFound,
    find_lexer_class,
    get_lexer_by_name,
    guess_lexer_for_filename,
)
from .packages.pygments.modeline import get_filetype_from_buffer

try:
    from .packages import simplejson as json  # pragma: nocover
except (ImportError, SyntaxError):  # pragma: nocover
    import json


log = logging.getLogger('WakaTime')


def get_file_stats(file_name, entity_type='file', lineno=None, cursorpos=None,
                   plugin=None, language=None):
    if entity_type != 'file':
        stats = {
            'language': None,
            'dependencies': [],
            'lines': None,
            'lineno': lineno,
            'cursorpos': cursorpos,
        }
    else:
        language = standardize_language(language, plugin)
        lexer = get_lexer(language)

        if not language:
            language, lexer = guess_language(file_name)

        parser = DependencyParser(file_name, lexer)
        dependencies = parser.parse()

        stats = {
            'language': language,
            'dependencies': dependencies,
            'lines': number_lines_in_file(file_name),
            'lineno': lineno,
            'cursorpos': cursorpos,
        }
    return stats


def get_lexer(language):
    """Return a Pygments Lexer object for the given language string."""

    if not language:
        return None

    lexer_cls = find_lexer_class(language)
    if lexer_cls:
        return lexer_cls()

    return None


def guess_language(file_name):
    """Guess lexer and language for a file.

    Returns (language, lexer) tuple where language is a unicode string.
    """

    language = get_language_from_extension(file_name)
    lexer = smart_guess_lexer(file_name)
    if language is None and lexer is not None:
        language = u(lexer.name)

    return language, lexer


def smart_guess_lexer(file_name):
    """Guess Pygments lexer for a file.

    Looks for a vim modeline in file contents, then compares the accuracy
    of that lexer with a second guess. The second guess looks up all lexers
    matching the file name, then runs a text analysis for the best choice.
    """
    lexer = None

    text = get_file_head(file_name)

    lexer1, accuracy1 = guess_lexer_using_filename(file_name, text)
    lexer2, accuracy2 = guess_lexer_using_modeline(text)

    if lexer1:
        lexer = lexer1
    if (lexer2 and accuracy2 and
        (not accuracy1 or accuracy2 > accuracy1)):
        lexer = lexer2  # pragma: nocover

    return lexer


def guess_lexer_using_filename(file_name, text):
    """Guess lexer for given text, limited to lexers for this file's extension.

    Returns a tuple of (lexer, accuracy).
    """

    lexer, accuracy = None, None

    try:
        lexer = guess_lexer_for_filename(file_name, text)
    except:
        pass

    if lexer is not None:
        try:
            accuracy = lexer.analyse_text(text)
        except:
            pass

    return lexer, accuracy


def guess_lexer_using_modeline(text):
    """Guess lexer for given text using Vim modeline.

    Returns a tuple of (lexer, accuracy).
    """

    lexer, accuracy = None, None

    file_type = None
    try:
        file_type = get_filetype_from_buffer(text)
    except:  # pragma: nocover
        pass

    if file_type is not None:
        try:
            lexer = get_lexer_by_name(file_type)
        except ClassNotFound:
            pass

    if lexer is not None:
        try:
            accuracy = lexer.analyse_text(text)
        except:  # pragma: nocover
            pass

    return lexer, accuracy


def get_language_from_extension(file_name):
    """Returns a matching language for the given file extension.
    """

    filepart, extension = os.path.splitext(file_name)

    if os.path.exists(u('{0}{1}').format(u(filepart), u('.c'))) or os.path.exists(u('{0}{1}').format(u(filepart), u('.C'))):
        return 'C'

    extension = extension.lower()
    if extension == '.h':
        directory = os.path.dirname(file_name)
        available_files = os.listdir(directory)
        available_extensions = list(zip(*map(os.path.splitext, available_files)))[1]
        available_extensions = [ext.lower() for ext in available_extensions]
        if '.cpp' in available_extensions:
            return 'C++'
        if '.c' in available_extensions:
            return 'C'

    return None


def number_lines_in_file(file_name):
    lines = 0
    try:
        with open(file_name, 'r', encoding='utf-8') as fh:
            for line in fh:
                lines += 1
    except:  # pragma: nocover
        try:
            with open(file_name, 'r', encoding=sys.getfilesystemencoding()) as fh:
                for line in fh:
                    lines += 1
        except:
            return None
    return lines


def standardize_language(language, plugin):
    """Maps a string to the equivalent Pygments language."""

    if not language:
        return None

    # standardize language for this plugin
    if plugin:
        plugin = plugin.split(' ')[-1].split('/')[0].split('-')[0]
        standardized = get_language_from_json(language, plugin)
        if standardized is not None:
            return standardized

    # standardize language against default languages
    standardized = get_language_from_json(language, 'default')
    return standardized


def get_language_from_json(language, key):
    """Finds the given language in a json file."""

    file_name = os.path.join(
        os.path.dirname(__file__),
        'languages',
        '{0}.json').format(key.lower())

    try:
        with open(file_name, 'r', encoding='utf-8') as fh:
            languages = json.loads(fh.read())
            if languages.get(language.lower()):
                return languages[language.lower()]
    except:
        pass

    return None


def get_file_head(file_name):
    """Returns the first 512000 bytes of the file's contents."""

    text = None
    try:
        with open(file_name, 'r', encoding='utf-8') as fh:
            text = fh.read(512000)
    except:
        try:
            with open(file_name, 'r', encoding=sys.getfilesystemencoding()) as fh:
                text = fh.read(512000)  # pragma: nocover
        except:
            log.traceback(logging.DEBUG)
    return text
sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00			`# -- coding: utf-8 --`
			`"""`
			`wakatime.stats`
			`~~~~~~~~~~~~~~`

v0.4.6 2013-09-22 20:41:13 +00:00			`Stats about files`
sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00
			`:copyright: (c) 2013 Alan Hamlett.`
			`:license: BSD, see LICENSE for more details.`
			`"""`

			`import logging`
			`import os`
			`import sys`

new compat file for python2 and python3 compatibility. read files as utf-8. 2014-09-30 16:09:30 +00:00			`from .compat import u, open`
rename languages as dependencies 2015-09-27 02:26:15 +00:00			`from .dependencies import DependencyParser`
new compat file for python2 and python3 compatibility. read files as utf-8. 2014-09-30 16:09:30 +00:00
give TypeScript higher priority than TypoScript 2017-02-20 21:22:14 +00:00			`from .packages.pygments.lexers import (`
			`ClassNotFound,`
make --alternate-language cli argument take precedence over detected language 2017-02-20 22:23:02 +00:00			`find_lexer_class,`
update tzlocal package. move packages to python version folder. 2016-04-18 21:27:41 +00:00			`get_lexer_by_name,`
			`guess_lexer_for_filename,`
			`)`
give TypeScript higher priority than TypoScript 2017-02-20 21:22:14 +00:00			`from .packages.pygments.modeline import get_filetype_from_buffer`
sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00
support passing an alternate language to cli 2016-04-19 10:30:44 +00:00			`try:`
			`from .packages import simplejson as json # pragma: nocover`
			`except (ImportError, SyntaxError): # pragma: nocover`
			`import json`

sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00
namespace logger to prevent conflicts with other plugins 2014-07-25 07:59:25 +00:00			`log = logging.getLogger('WakaTime')`
sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00

give TypeScript higher priority than TypoScript 2017-02-20 21:22:14 +00:00			`def get_file_stats(file_name, entity_type='file', lineno=None, cursorpos=None,`
use language as extra heartbeats key name 2017-02-20 23:29:44 +00:00			`plugin=None, language=None):`
give TypeScript higher priority than TypoScript 2017-02-20 21:22:14 +00:00			`if entity_type != 'file':`
			`stats = {`
			`'language': None,`
			`'dependencies': [],`
			`'lines': None,`
			`'lineno': lineno,`
			`'cursorpos': cursorpos,`
			`}`
			`else:`
use language as extra heartbeats key name 2017-02-20 23:29:44 +00:00			`language = standardize_language(language, plugin)`
make --alternate-language cli argument take precedence over detected language 2017-02-20 22:23:02 +00:00			`lexer = get_lexer(language)`

			`if not language:`
			`language, lexer = guess_language(file_name)`

give TypeScript higher priority than TypoScript 2017-02-20 21:22:14 +00:00			`parser = DependencyParser(file_name, lexer)`
			`dependencies = parser.parse()`
make --alternate-language cli argument take precedence over detected language 2017-02-20 22:23:02 +00:00
give TypeScript higher priority than TypoScript 2017-02-20 21:22:14 +00:00			`stats = {`
			`'language': language,`
			`'dependencies': dependencies,`
			`'lines': number_lines_in_file(file_name),`
			`'lineno': lineno,`
			`'cursorpos': cursorpos,`
			`}`
			`return stats`


make --alternate-language cli argument take precedence over detected language 2017-02-20 22:23:02 +00:00			`def get_lexer(language):`
			`"""Return a Pygments Lexer object for the given language string."""`

			`if not language:`
			`return None`

			`lexer_cls = find_lexer_class(language)`
			`if lexer_cls:`
			`return lexer_cls()`

			`return None`


sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00			`def guess_language(file_name):`
use most accurate language from modeline lexer and filename lexer Pygments guessing functions 2015-06-11 21:11:10 +00:00			`"""Guess lexer and language for a file.`

			`Returns (language, lexer) tuple where language is a unicode string.`
			`"""`

move language rules to server, detect header files - move language translations to api server - move extension rules to api server - detect correct header file language based on presence of .cpp or .c files named the same as the .h file 2015-08-10 18:33:39 +00:00			`language = get_language_from_extension(file_name)`
			`lexer = smart_guess_lexer(file_name)`
prevent using lexer when None 2015-09-29 09:18:54 +00:00			`if language is None and lexer is not None:`
only use lexer if one was found 2015-08-11 03:10:09 +00:00			`language = u(lexer.name)`
use most accurate language from modeline lexer and filename lexer Pygments guessing functions 2015-06-11 21:11:10 +00:00
dependency parser base models 2014-12-23 05:12:57 +00:00			`return language, lexer`
sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00

use most accurate language from modeline lexer and filename lexer Pygments guessing functions 2015-06-11 21:11:10 +00:00			`def smart_guess_lexer(file_name):`
			`"""Guess Pygments lexer for a file.`

			`Looks for a vim modeline in file contents, then compares the accuracy`
			`of that lexer with a second guess. The second guess looks up all lexers`
			`matching the file name, then runs a text analysis for the best choice.`
			`"""`
			`lexer = None`

support passing an alternate language to cli 2016-04-19 10:30:44 +00:00			`text = get_file_head(file_name)`
use most accurate language from modeline lexer and filename lexer Pygments guessing functions 2015-06-11 21:11:10 +00:00
move language rules to server, detect header files - move language translations to api server - move extension rules to api server - detect correct header file language based on presence of .cpp or .c files named the same as the .h file 2015-08-10 18:33:39 +00:00			`lexer1, accuracy1 = guess_lexer_using_filename(file_name, text)`
			`lexer2, accuracy2 = guess_lexer_using_modeline(text)`
use most accurate language from modeline lexer and filename lexer Pygments guessing functions 2015-06-11 21:11:10 +00:00
move language rules to server, detect header files - move language translations to api server - move extension rules to api server - detect correct header file language based on presence of .cpp or .c files named the same as the .h file 2015-08-10 18:33:39 +00:00			`if lexer1:`
			`lexer = lexer1`
			`if (lexer2 and accuracy2 and`
			`(not accuracy1 or accuracy2 > accuracy1)):`
test vim modeline detection 2015-09-07 03:46:57 +00:00			`lexer = lexer2 # pragma: nocover`
use most accurate language from modeline lexer and filename lexer Pygments guessing functions 2015-06-11 21:11:10 +00:00
			`return lexer`


clean up lexer guessing 2015-06-16 01:55:47 +00:00			`def guess_lexer_using_filename(file_name, text):`
			`"""Guess lexer for given text, limited to lexers for this file's extension.`

			`Returns a tuple of (lexer, accuracy).`
use most accurate language from modeline lexer and filename lexer Pygments guessing functions 2015-06-11 21:11:10 +00:00			`"""`

clean up lexer guessing 2015-06-16 01:55:47 +00:00			`lexer, accuracy = None, None`
auxiliary extension map for when no language can be found, not to overwrite detected language 2015-06-13 00:25:04 +00:00
clean up lexer guessing 2015-06-16 01:55:47 +00:00			`try:`
			`lexer = guess_lexer_for_filename(file_name, text)`
give TypeScript higher priority than TypoScript 2017-02-20 21:22:14 +00:00			`except:`
clean up lexer guessing 2015-06-16 01:55:47 +00:00			`pass`
auxiliary extension map for when no language can be found, not to overwrite detected language 2015-06-13 00:25:04 +00:00
clean up lexer guessing 2015-06-16 01:55:47 +00:00			`if lexer is not None:`
			`try:`
			`accuracy = lexer.analyse_text(text)`
give TypeScript higher priority than TypoScript 2017-02-20 21:22:14 +00:00			`except:`
clean up lexer guessing 2015-06-16 01:55:47 +00:00			`pass`

			`return lexer, accuracy`
force some file extensions to be recognizes as certain languages 2013-10-26 04:28:59 +00:00

limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:26:10 +00:00			`def guess_lexer_using_modeline(text):`
			`"""Guess lexer for given text using Vim modeline.`
clean up lexer guessing 2015-06-16 01:55:47 +00:00
			`Returns a tuple of (lexer, accuracy).`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:26:10 +00:00			`"""`

clean up lexer guessing 2015-06-16 01:55:47 +00:00			`lexer, accuracy = None, None`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:26:10 +00:00
catch exceptions from `pygments.modeline.get_filetype_from_buffer` 2015-07-02 19:36:45 +00:00			`file_type = None`
			`try:`
			`file_type = get_filetype_from_buffer(text)`
test vim modeline detection 2015-09-07 03:46:57 +00:00			`except: # pragma: nocover`
catch exceptions from `pygments.modeline.get_filetype_from_buffer` 2015-07-02 19:36:45 +00:00			`pass`

limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:26:10 +00:00			`if file_type is not None:`
			`try:`
clean up lexer guessing 2015-06-16 01:55:47 +00:00			`lexer = get_lexer_by_name(file_type)`
correct namespace for pygments.lexers.ClassNotFound error 2016-06-15 19:09:40 +00:00			`except ClassNotFound:`
clean up lexer guessing 2015-06-16 01:55:47 +00:00			`pass`

			`if lexer is not None:`
			`try:`
			`accuracy = lexer.analyse_text(text)`
test vim modeline detection 2015-09-07 03:46:57 +00:00			`except: # pragma: nocover`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:26:10 +00:00			`pass`

clean up lexer guessing 2015-06-16 01:55:47 +00:00			`return lexer, accuracy`


move language rules to server, detect header files - move language translations to api server - move extension rules to api server - detect correct header file language based on presence of .cpp or .c files named the same as the .h file 2015-08-10 18:33:39 +00:00			`def get_language_from_extension(file_name):`
			`"""Returns a matching language for the given file extension.`
clean up lexer guessing 2015-06-16 01:55:47 +00:00			`"""`

test C and C++ detection when editing header files 2015-09-07 03:06:36 +00:00			`filepart, extension = os.path.splitext(file_name)`

			`if os.path.exists(u('{0}{1}').format(u(filepart), u('.c'))) or os.path.exists(u('{0}{1}').format(u(filepart), u('.C'))):`
			`return 'C'`

			`extension = extension.lower()`
use C++ for header file language if directory contains C++ files 2015-08-11 01:17:50 +00:00			`if extension == '.h':`
			`directory = os.path.dirname(file_name)`
			`available_files = os.listdir(directory)`
force return value from zip to be a list in py3 2015-09-07 03:19:22 +00:00			`available_extensions = list(zip(*map(os.path.splitext, available_files)))[1]`
use C++ for header file language if directory contains C++ files 2015-08-11 01:17:50 +00:00			`available_extensions = [ext.lower() for ext in available_extensions]`
			`if '.cpp' in available_extensions:`
move language rules to server, detect header files - move language translations to api server - move extension rules to api server - detect correct header file language based on presence of .cpp or .c files named the same as the .h file 2015-08-10 18:33:39 +00:00			`return 'C++'`
use C++ for header file language if directory contains C++ files 2015-08-11 01:17:50 +00:00			`if '.c' in available_extensions:`
move language rules to server, detect header files - move language translations to api server - move extension rules to api server - detect correct header file language based on presence of .cpp or .c files named the same as the .h file 2015-08-10 18:33:39 +00:00			`return 'C'`
clean up lexer guessing 2015-06-16 01:55:47 +00:00
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:26:10 +00:00			`return None`


sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00			`def number_lines_in_file(file_name):`
			`lines = 0`
			`try:`
new compat file for python2 and python3 compatibility. read files as utf-8. 2014-09-30 16:09:30 +00:00			`with open(file_name, 'r', encoding='utf-8') as fh:`
			`for line in fh:`
sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00			`lines += 1`
don't require tests for non-utf8 filesystem encoding 2015-09-08 21:07:14 +00:00			`except: # pragma: nocover`
try opening files with filesystem encoding when opening with utf-8 causes UnicodeDecodeError 2015-08-24 01:49:34 +00:00			`try:`
			`with open(file_name, 'r', encoding=sys.getfilesystemencoding()) as fh:`
			`for line in fh:`
			`lines += 1`
			`except:`
			`return None`
sending file stats (total lines in file, language name) to api 2013-09-22 20:39:16 +00:00			`return lines`


support passing an alternate language to cli 2016-04-19 10:30:44 +00:00			`def standardize_language(language, plugin):`
			`"""Maps a string to the equivalent Pygments language."""`

make --alternate-language cli argument take precedence over detected language 2017-02-20 22:23:02 +00:00			`if not language:`
			`return None`

support passing an alternate language to cli 2016-04-19 10:30:44 +00:00			`# standardize language for this plugin`
			`if plugin:`
			`plugin = plugin.split(' ')[-1].split('/')[0].split('-')[0]`
			`standardized = get_language_from_json(language, plugin)`
			`if standardized is not None:`
			`return standardized`

			`# standardize language against default languages`
			`standardized = get_language_from_json(language, 'default')`
use alternate language if case-insensitive matches a language in the json files 2017-02-20 20:40:24 +00:00			`return standardized`
support passing an alternate language to cli 2016-04-19 10:30:44 +00:00

			`def get_language_from_json(language, key):`
			`"""Finds the given language in a json file."""`

			`file_name = os.path.join(`
			`os.path.dirname(__file__),`
			`'languages',`
			`'{0}.json').format(key.lower())`

			`try:`
			`with open(file_name, 'r', encoding='utf-8') as fh:`
			`languages = json.loads(fh.read())`
use alternate language if case-insensitive matches a language in the json files 2017-02-20 20:40:24 +00:00			`if languages.get(language.lower()):`
			`return languages[language.lower()]`
support passing an alternate language to cli 2016-04-19 10:30:44 +00:00			`except:`
			`pass`

			`return None`


			`def get_file_head(file_name):`
			`"""Returns the first 512000 bytes of the file's contents."""`
use most accurate language from modeline lexer and filename lexer Pygments guessing functions 2015-06-11 21:11:10 +00:00
			`text = None`
			`try:`
			`with open(file_name, 'r', encoding='utf-8') as fh:`
			`text = fh.read(512000)`
fix traceback logging level logic 2016-06-16 06:02:56 +00:00			`except:`
try opening files with filesystem encoding when opening with utf-8 causes UnicodeDecodeError 2015-08-24 01:49:34 +00:00			`try:`
			`with open(file_name, 'r', encoding=sys.getfilesystemencoding()) as fh:`
remove unused python token parser method 2016-08-31 15:13:25 +00:00			`text = fh.read(512000) # pragma: nocover`
try opening files with filesystem encoding when opening with utf-8 causes UnicodeDecodeError 2015-08-24 01:49:34 +00:00			`except:`
improve traceback logging and non-utf8 handling 2016-09-01 09:49:12 +00:00			`log.traceback(logging.DEBUG)`
use most accurate language from modeline lexer and filename lexer Pygments guessing functions 2015-06-11 21:11:10 +00:00			`return text`