vim-rana/plugin/packages/wakatime/stats.py

# -*- coding: utf-8 -*-
"""
    wakatime.stats
    ~~~~~~~~~~~~~~

    Stats about files

    :copyright: (c) 2013 Alan Hamlett.
    :license: BSD, see LICENSE for more details.
"""

import logging
import os
import sys

from .compat import u, open
from .languages import DependencyParser

if sys.version_info[0] == 2:
    sys.path.insert(0, os.path.join(os.path.dirname(os.path.abspath(__file__)), 'packages', 'pygments_py2'))
else:
    sys.path.insert(0, os.path.join(os.path.dirname(os.path.abspath(__file__)), 'packages', 'pygments_py3'))
from pygments.lexers import get_lexer_by_name, guess_lexer_for_filename
from pygments.modeline import get_filetype_from_buffer
from pygments.util import ClassNotFound


log = logging.getLogger('WakaTime')


# extensions taking priority over lexer
EXTENSIONS = {
    'j2': 'HTML',
    'markdown': 'Markdown',
    'md': 'Markdown',
    'mdown': 'Markdown',
    'twig': 'Twig',
}

# lexers to human readable languages
TRANSLATIONS = {
    'CSS+Genshi Text': 'CSS',
    'CSS+Lasso': 'CSS',
    'HTML+Django/Jinja': 'HTML',
    'HTML+Lasso': 'HTML',
    'JavaScript+Genshi Text': 'JavaScript',
    'JavaScript+Lasso': 'JavaScript',
    'Perl6': 'Perl',
    'RHTML': 'HTML',
}

# extensions for when no lexer is found
AUXILIARY_EXTENSIONS = {
    'vb': 'VB.net',
}


def guess_language(file_name):
    """Guess lexer and language for a file.

    Returns (language, lexer) tuple where language is a unicode string.
    """

    lexer = smart_guess_lexer(file_name)

    language = None

    # guess language from file extension
    if file_name:
        language = get_language_from_extension(file_name, EXTENSIONS)

    # get language from lexer if we didn't have a hard-coded extension rule
    if language is None and lexer:
        language = u(lexer.name)

    if language is None:
        language = get_language_from_extension(file_name, AUXILIARY_EXTENSIONS)

    if language is not None:
        language = translate_language(language)

    return language, lexer


def smart_guess_lexer(file_name):
    """Guess Pygments lexer for a file.

    Looks for a vim modeline in file contents, then compares the accuracy
    of that lexer with a second guess. The second guess looks up all lexers
    matching the file name, then runs a text analysis for the best choice.
    """
    lexer = None

    text = get_file_contents(file_name)

    lexer_1, accuracy_1 = guess_lexer_using_filename(file_name, text)
    lexer_2, accuracy_2 = guess_lexer_using_modeline(text)

    if lexer_1:
        lexer = lexer_1
    if (lexer_2 and accuracy_2 and
        (not accuracy_1 or accuracy_2 > accuracy_1)):
        lexer = lexer_2

    return lexer


def guess_lexer_using_filename(file_name, text):
    """Guess lexer for given text, limited to lexers for this file's extension.

    Returns a tuple of (lexer, accuracy).
    """

    lexer, accuracy = None, None

    try:
        lexer = guess_lexer_for_filename(file_name, text)
    except:
        pass

    if lexer is not None:
        try:
            accuracy = lexer.analyse_text(text)
        except:
            pass

    return lexer, accuracy


def guess_lexer_using_modeline(text):
    """Guess lexer for given text using Vim modeline.

    Returns a tuple of (lexer, accuracy).
    """

    lexer, accuracy = None, None

    file_type = None
    try:
        file_type = get_filetype_from_buffer(text)
    except:
        pass

    if file_type is not None:
        try:
            lexer = get_lexer_by_name(file_type)
        except ClassNotFound:
            pass

    if lexer is not None:
        try:
            accuracy = lexer.analyse_text(text)
        except:
            pass

    return lexer, accuracy


def get_language_from_extension(file_name, extension_map):
    """Returns a matching language for the given file_name using extension_map.
    """

    extension = file_name.rsplit('.', 1)[-1] if len(file_name.rsplit('.', 1)) > 1 else None

    if extension:
        if extension in extension_map:
            return extension_map[extension]
        if extension.lower() in extension_map:
            return extension_map[extension.lower()]

    return None


def translate_language(language):
    """Turns Pygments lexer class name string into human-readable language.
    """

    if language in TRANSLATIONS:
        language = TRANSLATIONS[language]
    return language


def number_lines_in_file(file_name):
    lines = 0
    try:
        with open(file_name, 'r', encoding='utf-8') as fh:
            for line in fh:
                lines += 1
    except:
        return None
    return lines


def get_file_stats(file_name, notfile=False, lineno=None, cursorpos=None):
    if notfile:
        stats = {
            'language': None,
            'dependencies': [],
            'lines': None,
            'lineno': lineno,
            'cursorpos': cursorpos,
        }
    else:
        language, lexer = guess_language(file_name)
        parser = DependencyParser(file_name, lexer)
        dependencies = parser.parse()
        stats = {
            'language': language,
            'dependencies': dependencies,
            'lines': number_lines_in_file(file_name),
            'lineno': lineno,
            'cursorpos': cursorpos,
        }
    return stats


def get_file_contents(file_name):
    """Returns the first 512000 bytes of the file's contents.
    """

    text = None
    try:
        with open(file_name, 'r', encoding='utf-8') as fh:
            text = fh.read(512000)
    except:
        pass
    return text
upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00			`# -- coding: utf-8 --`
			`"""`
			`wakatime.stats`
			`~~~~~~~~~~~~~~`

			`Stats about files`

			`:copyright: (c) 2013 Alan Hamlett.`
			`:license: BSD, see LICENSE for more details.`
			`"""`

			`import logging`
			`import os`
			`import sys`

upgrade wakatime package to v2.1.0 2014-09-30 16:23:17 +00:00			`from .compat import u, open`
upgrade wakatime-cli to v3.0.0 2014-12-23 11:22:49 +00:00			`from .languages import DependencyParser`
upgrade wakatime package to v2.1.0 2014-09-30 16:23:17 +00:00
upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00			`if sys.version_info[0] == 2:`
upgrade wakatime-cli to v2.1.7 2014-12-01 06:19:45 +00:00			`sys.path.insert(0, os.path.join(os.path.dirname(os.path.abspath(__file__)), 'packages', 'pygments_py2'))`
upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00			`else:`
upgrade wakatime-cli to v2.1.7 2014-12-01 06:19:45 +00:00			`sys.path.insert(0, os.path.join(os.path.dirname(os.path.abspath(__file__)), 'packages', 'pygments_py3'))`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00			`from pygments.lexers import get_lexer_by_name, guess_lexer_for_filename`
			`from pygments.modeline import get_filetype_from_buffer`
clean up lexer guessing 2015-06-16 01:56:44 +00:00			`from pygments.util import ClassNotFound`
upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00

v2.0.4 2014-07-25 09:45:35 +00:00			`log = logging.getLogger('WakaTime')`

upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00			`# extensions taking priority over lexer`
upgrade wakatime package 2013-10-26 04:32:30 +00:00			`EXTENSIONS = {`
recognize jinja2 file extensions as HTML 2013-11-01 00:18:22 +00:00			`'j2': 'HTML',`
upgrade wakatime plugin 2013-11-03 19:35:59 +00:00			`'markdown': 'Markdown',`
			`'md': 'Markdown',`
update wakatime-cli to v2.1.4 when Python was not compiled with https support, log an error to the log file 2014-11-13 03:34:02 +00:00			`'mdown': 'Markdown',`
upgrade common wakatime package to v0.5.0 2013-12-13 14:44:59 +00:00			`'twig': 'Twig',`
upgrade wakatime package 2013-10-26 04:32:30 +00:00			`}`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00
			`# lexers to human readable languages`
update wakatime package 2013-10-27 00:55:10 +00:00			`TRANSLATIONS = {`
			`'CSS+Genshi Text': 'CSS',`
update language lexer translations 2013-10-27 00:59:02 +00:00			`'CSS+Lasso': 'CSS',`
			`'HTML+Django/Jinja': 'HTML',`
			`'HTML+Lasso': 'HTML',`
			`'JavaScript+Genshi Text': 'JavaScript',`
			`'JavaScript+Lasso': 'JavaScript',`
update wakatime package 2013-10-27 00:55:10 +00:00			`'Perl6': 'Perl',`
recognize jinja2 file extensions as HTML 2013-11-01 00:18:22 +00:00			`'RHTML': 'HTML',`
update wakatime package 2013-10-27 00:55:10 +00:00			`}`
upgrade wakatime package 2013-10-26 04:32:30 +00:00
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00			`# extensions for when no lexer is found`
			`AUXILIARY_EXTENSIONS = {`
			`'vb': 'VB.net',`
			`}`

upgrade wakatime package 2013-10-26 04:32:30 +00:00
upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00			`def guess_language(file_name):`
update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00			`"""Guess lexer and language for a file.`

			`Returns (language, lexer) tuple where language is a unicode string.`
			`"""`

			`lexer = smart_guess_lexer(file_name)`

			`language = None`

			`# guess language from file extension`
upgrade wakatime-cli to v3.0.0 2014-12-23 11:22:49 +00:00			`if file_name:`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00			`language = get_language_from_extension(file_name, EXTENSIONS)`
update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00
			`# get language from lexer if we didn't have a hard-coded extension rule`
			`if language is None and lexer:`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00			`language = u(lexer.name)`

			`if language is None:`
			`language = get_language_from_extension(file_name, AUXILIARY_EXTENSIONS)`

			`if language is not None:`
			`language = translate_language(language)`
update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00
upgrade wakatime-cli to v3.0.0 2014-12-23 11:22:49 +00:00			`return language, lexer`
upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00

update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00			`def smart_guess_lexer(file_name):`
			`"""Guess Pygments lexer for a file.`

			`Looks for a vim modeline in file contents, then compares the accuracy`
			`of that lexer with a second guess. The second guess looks up all lexers`
			`matching the file name, then runs a text analysis for the best choice.`
			`"""`
			`lexer = None`

			`text = get_file_contents(file_name)`

clean up lexer guessing 2015-06-16 01:56:44 +00:00			`lexer_1, accuracy_1 = guess_lexer_using_filename(file_name, text)`
			`lexer_2, accuracy_2 = guess_lexer_using_modeline(text)`
update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00
clean up lexer guessing 2015-06-16 01:56:44 +00:00			`if lexer_1:`
			`lexer = lexer_1`
			`if (lexer_2 and accuracy_2 and`
update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00			`(not accuracy_1 or accuracy_2 > accuracy_1)):`
clean up lexer guessing 2015-06-16 01:56:44 +00:00			`lexer = lexer_2`
update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00
			`return lexer`


clean up lexer guessing 2015-06-16 01:56:44 +00:00			`def guess_lexer_using_filename(file_name, text):`
			`"""Guess lexer for given text, limited to lexers for this file's extension.`

			`Returns a tuple of (lexer, accuracy).`
update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00			`"""`

clean up lexer guessing 2015-06-16 01:56:44 +00:00			`lexer, accuracy = None, None`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00
clean up lexer guessing 2015-06-16 01:56:44 +00:00			`try:`
			`lexer = guess_lexer_for_filename(file_name, text)`
			`except:`
			`pass`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00
clean up lexer guessing 2015-06-16 01:56:44 +00:00			`if lexer is not None:`
			`try:`
			`accuracy = lexer.analyse_text(text)`
			`except:`
			`pass`

			`return lexer, accuracy`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00

			`def guess_lexer_using_modeline(text):`
			`"""Guess lexer for given text using Vim modeline.`
clean up lexer guessing 2015-06-16 01:56:44 +00:00
			`Returns a tuple of (lexer, accuracy).`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00			`"""`

clean up lexer guessing 2015-06-16 01:56:44 +00:00			`lexer, accuracy = None, None`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00
fix #31 by catching exceptions from 2015-07-03 21:25:22 +00:00			`file_type = None`
			`try:`
			`file_type = get_filetype_from_buffer(text)`
			`except:`
			`pass`

limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00			`if file_type is not None:`
			`try:`
clean up lexer guessing 2015-06-16 01:56:44 +00:00			`lexer = get_lexer_by_name(file_type)`
			`except ClassNotFound:`
			`pass`

			`if lexer is not None:`
			`try:`
			`accuracy = lexer.analyse_text(text)`
limit language detection to known file extensions, unless file contents has a vim modeline 2015-06-16 01:27:58 +00:00			`except:`
			`pass`

clean up lexer guessing 2015-06-16 01:56:44 +00:00			`return lexer, accuracy`


			`def get_language_from_extension(file_name, extension_map):`
			`"""Returns a matching language for the given file_name using extension_map.`
			`"""`

			`extension = file_name.rsplit('.', 1)[-1] if len(file_name.rsplit('.', 1)) > 1 else None`

			`if extension:`
			`if extension in extension_map:`
			`return extension_map[extension]`
			`if extension.lower() in extension_map:`
			`return extension_map[extension.lower()]`

upgrade wakatime package 2013-10-26 04:32:30 +00:00			`return None`


update wakatime package 2013-10-27 00:55:10 +00:00			`def translate_language(language):`
update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00			`"""Turns Pygments lexer class name string into human-readable language.`
			`"""`

update wakatime package 2013-10-27 00:55:10 +00:00			`if language in TRANSLATIONS:`
			`language = TRANSLATIONS[language]`
			`return language`


upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00			`def number_lines_in_file(file_name):`
			`lines = 0`
			`try:`
upgrade wakatime package to v2.1.0 2014-09-30 16:23:17 +00:00			`with open(file_name, 'r', encoding='utf-8') as fh:`
			`for line in fh:`
upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00			`lines += 1`
upgrade external wakatime-cli package to v2.1.2 2014-11-04 06:51:05 +00:00			`except:`
upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00			`return None`
			`return lines`


upgrade wakatime cli to v4.0.11 2015-05-12 22:02:09 +00:00			`def get_file_stats(file_name, notfile=False, lineno=None, cursorpos=None):`
upgrade external wakatime-cli to v4.0.0 2015-02-13 03:06:40 +00:00			`if notfile:`
			`stats = {`
			`'language': None,`
			`'dependencies': [],`
			`'lines': None,`
upgrade wakatime cli to v4.0.11 2015-05-12 22:02:09 +00:00			`'lineno': lineno,`
			`'cursorpos': cursorpos,`
upgrade external wakatime-cli to v4.0.0 2015-02-13 03:06:40 +00:00			`}`
			`else:`
			`language, lexer = guess_language(file_name)`
			`parser = DependencyParser(file_name, lexer)`
			`dependencies = parser.parse()`
			`stats = {`
			`'language': language,`
			`'dependencies': dependencies,`
			`'lines': number_lines_in_file(file_name),`
upgrade wakatime cli to v4.0.11 2015-05-12 22:02:09 +00:00			`'lineno': lineno,`
			`'cursorpos': cursorpos,`
upgrade external wakatime-cli to v4.0.0 2015-02-13 03:06:40 +00:00			`}`
upgraded wakatime package to v0.4.6 2013-09-22 23:22:11 +00:00			`return stats`
update wakatime cli to v4.0.15 to fix #19 2015-06-11 21:14:30 +00:00

			`def get_file_contents(file_name):`
			`"""Returns the first 512000 bytes of the file's contents.`
			`"""`

			`text = None`
			`try:`
			`with open(file_name, 'r', encoding='utf-8') as fh:`
			`text = fh.read(512000)`
			`except:`
			`pass`
			`return text`