Plex-Meta-Manager/modules/letterboxd.py

import re, time
from modules import util
from modules.util import Failed

logger = util.logger

builders = ["letterboxd_list", "letterboxd_list_details"]
base_url = "https://letterboxd.com"

class Letterboxd:
    def __init__(self, requests, cache):
        self.requests = requests
        self.cache = cache

    def _parse_page(self, list_url, language):
        if "ajax" not in list_url:
            list_url = list_url.replace("https://letterboxd.com/films", "https://letterboxd.com/films/ajax")
        logger.trace(f"URL: {list_url}")
        response = self.requests.get_html(list_url, language=language)
        letterboxd_ids = response.xpath("//li[contains(@class, 'poster-container') or contains(@class, 'film-detail')]/div/@data-film-id")
        items = []
        for letterboxd_id in letterboxd_ids:
            slugs = response.xpath(f"//div[@data-film-id='{letterboxd_id}']/@data-target-link")
            comments = response.xpath(f"//div[@data-film-id='{letterboxd_id}']/parent::li/div[@class='film-detail-content']/div/p/text()")
            ratings = response.xpath(f"//div[@data-film-id='{letterboxd_id}']/parent::li/div[@class='film-detail-content']//span[contains(@class, 'rating')]/@class")
            years = response.xpath(f"//div[@data-film-id='{letterboxd_id}']/parent::li/div[@class='film-detail-content']/h2/small/a/text()")
            rating = None
            if ratings:
                match = re.search("rated-(\\d+)", ratings[0])
                if match:
                    rating = int(match.group(1))
            items.append((letterboxd_id, slugs[0], int(years[0]) if years else None, comments[0] if comments else None, rating))
        next_url = response.xpath("//a[@class='next']/@href")
        return items, next_url

    def _parse_list(self, list_url, limit, language):
        items, next_url = self._parse_page(list_url, language)
        while len(next_url) > 0:
            time.sleep(2)
            new_items, next_url = self._parse_page(f"{base_url}{next_url[0]}", language)
            items.extend(new_items)
            if limit and len(items) >= limit:
                return items[:limit]
        return items

    def _tmdb(self, letterboxd_url, language):
        logger.trace(f"URL: {letterboxd_url}")
        response = self.requests.get_html(letterboxd_url, language=language)
        ids = response.xpath("//a[@data-track-action='TMDb']/@href")
        if len(ids) > 0 and ids[0]:
            if "themoviedb.org/movie" in ids[0]:
                return util.regex_first_int(ids[0], "TMDb Movie ID")
            raise Failed(f"Letterboxd Error: TMDb Movie ID not found in {ids[0]}")
        raise Failed(f"Letterboxd Error: TMDb Movie ID not found at {letterboxd_url}")

    def get_list_description(self, list_url, language):
        logger.trace(f"URL: {list_url}")
        response = self.requests.get_html(list_url, language=language)
        descriptions = response.xpath("//meta[@property='og:description']/@content")
        if len(descriptions) > 0 and len(descriptions[0]) > 0 and "About this list: " in descriptions[0]:
            return str(descriptions[0]).split("About this list: ")[1]
        return None

    def validate_letterboxd_lists(self, err_type, letterboxd_lists, language):
        valid_lists = []
        for letterboxd_dict in util.get_list(letterboxd_lists, split=False):
            if not isinstance(letterboxd_dict, dict):
                letterboxd_dict = {"url": letterboxd_dict}
            dict_methods = {dm.lower(): dm for dm in letterboxd_dict}
            final = {
                "url": util.parse(err_type, "url", letterboxd_dict, methods=dict_methods, parent="letterboxd_list").strip(),
                "limit": util.parse(err_type, "limit", letterboxd_dict, methods=dict_methods, datatype="int", parent="letterboxd_list", default=0) if "limit" in dict_methods else 0,
                "note": util.parse(err_type, "note", letterboxd_dict, methods=dict_methods, parent="letterboxd_list") if "note" in dict_methods else None,
                "rating": util.parse(err_type, "rating", letterboxd_dict, methods=dict_methods, datatype="int", parent="letterboxd_list", maximum=100, range_split="-") if "rating" in dict_methods else None,
                "year": util.parse(err_type, "year", letterboxd_dict, methods=dict_methods, datatype="int", parent="letterboxd_list", minimum=1000, maximum=3000, range_split="-") if "year" in dict_methods else None
            }
            if not final["url"].startswith(base_url):
                raise Failed(f"{err_type} Error: {final['url']} must begin with: {base_url}")
            elif not self._parse_page(final["url"], language)[0]:
                raise Failed(f"{err_type} Error: {final['url']} failed to parse")
            valid_lists.append(final)
        return valid_lists

    def get_tmdb_ids(self, method, data, language):
        if method == "letterboxd_list":
            logger.info(f"Processing Letterboxd List: {data}")
            items = self._parse_list(data["url"], data["limit"], language)
            total_items = len(items)
            if total_items > 0:
                ids = []
                filtered_ids = []
                for i, item in enumerate(items, 1):
                    letterboxd_id, slug, year, note, rating = item
                    filtered = False
                    if data["year"]:
                        start_year, end_year = data["year"].split("-")
                        if not year or int(end_year) < year or year < int(start_year):
                            filtered = True
                    if data["rating"]:
                        start_rating, end_rating = data["rating"].split("-")
                        if not rating or int(end_rating) < rating or rating < int(start_rating):
                            filtered = True
                    if data["note"]:
                        if not note or data["note"] not in note:
                            filtered = True
                    if filtered:
                        filtered_ids.append(slug)
                        continue
                    logger.ghost(f"Finding TMDb ID {i}/{total_items}")
                    tmdb_id = None
                    expired = None
                    if self.cache:
                        tmdb_id, expired = self.cache.query_letterboxd_map(letterboxd_id)
                    if not tmdb_id or expired is not False:
                        try:
                            tmdb_id = self._tmdb(f"{base_url}{slug}", language)
                        except Failed as e:
                            logger.error(e)
                            continue
                        if self.cache:
                            self.cache.update_letterboxd_map(expired, letterboxd_id, tmdb_id)
                    ids.append((tmdb_id, "tmdb"))
                logger.info(f"Processed {total_items} TMDb IDs")
                if filtered_ids:
                    logger.info(f"Filtered: {filtered_ids}")
                return ids
            else:
                raise Failed(f"Letterboxd Error: No List Items found in {data}")
        else:
            raise Failed(f"Letterboxd Error: Method {method} not supported")
[46] add letterboxd filters 2022-03-31 06:23:48 +00:00			`import re, time`
Add Letterboxd Support 2021-03-04 20:05:51 +00:00			`from modules import util`
			`from modules.util import Failed`

[64] #640 & #675 added redacted logging and --ignore-ghost 2022-02-13 16:33:57 +00:00			`logger = util.logger`
Add Letterboxd Support 2021-03-04 20:05:51 +00:00
reorganized static lists 2021-03-30 05:50:53 +00:00			`builders = ["letterboxd_list", "letterboxd_list_details"]`
#306 Added a Session 2021-07-14 14:47:20 +00:00			`base_url = "https://letterboxd.com"`
reorganized static lists 2021-03-30 05:50:53 +00:00
minor changes 2021-06-14 15:24:11 +00:00			`class Letterboxd:`
[25] add requests module 2024-05-28 20:22:51 +00:00			`def __init__(self, requests, cache):`
			`self.requests = requests`
			`self.cache = cache`
added letterboxd list descriptions 2021-03-08 21:54:19 +00:00
[106] small updates 2022-05-18 17:07:15 +00:00			`def _parse_page(self, list_url, language):`
[9] add item_genre detail 2022-08-31 13:49:52 +00:00			`if "ajax" not in list_url:`
			`list_url = list_url.replace("https://letterboxd.com/films", "https://letterboxd.com/films/ajax")`
[15] add `/` rating mod 2022-09-08 16:07:15 +00:00			`logger.trace(f"URL: {list_url}")`
[25] add requests module 2024-05-28 20:22:51 +00:00			`response = self.requests.get_html(list_url, language=language)`
[9] add item_genre detail 2022-08-31 13:49:52 +00:00			`letterboxd_ids = response.xpath("//li[contains(@class, 'poster-container') or contains(@class, 'film-detail')]/div/@data-film-id")`
added letterboxd cache #102 2021-03-12 19:49:23 +00:00			`items = []`
			`for letterboxd_id in letterboxd_ids:`
[99] letterboxd fix and overlay fix 2023-08-20 15:31:51 +00:00			`slugs = response.xpath(f"//div[@data-film-id='{letterboxd_id}']/@data-target-link")`
[9] add item_genre detail 2022-08-31 13:49:52 +00:00			`comments = response.xpath(f"//div[@data-film-id='{letterboxd_id}']/parent::li/div[@class='film-detail-content']/div/p/text()")`
			`ratings = response.xpath(f"//div[@data-film-id='{letterboxd_id}']/parent::li/div[@class='film-detail-content']//span[contains(@class, 'rating')]/@class")`
			`years = response.xpath(f"//div[@data-film-id='{letterboxd_id}']/parent::li/div[@class='film-detail-content']/h2/small/a/text()")`
[46] add letterboxd filters 2022-03-31 06:23:48 +00:00			`rating = None`
			`if ratings:`
			`match = re.search("rated-(\\d+)", ratings[0])`
			`if match:`
			`rating = int(match.group(1))`
[9] add item_genre detail 2022-08-31 13:49:52 +00:00			`items.append((letterboxd_id, slugs[0], int(years[0]) if years else None, comments[0] if comments else None, rating))`
Add Letterboxd Support 2021-03-04 20:05:51 +00:00			`next_url = response.xpath("//a[@class='next']/@href")`
[106] small updates 2022-05-18 17:07:15 +00:00			`return items, next_url`

			`def _parse_list(self, list_url, limit, language):`
			`items, next_url = self._parse_page(list_url, language)`
			`while len(next_url) > 0:`
#306 Added a Session 2021-07-14 14:47:20 +00:00			`time.sleep(2)`
[106] small updates 2022-05-18 17:07:15 +00:00			`new_items, next_url = self._parse_page(f"{base_url}{next_url[0]}", language)`
			`items.extend(new_items)`
			`if limit and len(items) >= limit:`
			`return items[:limit]`
added letterboxd cache #102 2021-03-12 19:49:23 +00:00			`return items`
Add Letterboxd Support 2021-03-04 20:05:51 +00:00
variable rename 2021-05-07 19:53:54 +00:00			`def _tmdb(self, letterboxd_url, language):`
[14] update trace 2022-09-07 19:32:52 +00:00			`logger.trace(f"URL: {letterboxd_url}")`
[25] add requests module 2024-05-28 20:22:51 +00:00			`response = self.requests.get_html(letterboxd_url, language=language)`
added letterboxd cache #102 2021-03-12 19:49:23 +00:00			`ids = response.xpath("//a[@data-track-action='TMDb']/@href")`
letterboxd fixes 2021-03-11 21:51:02 +00:00			`if len(ids) > 0 and ids[0]:`
added letterboxd cache #102 2021-03-12 19:49:23 +00:00			`if "themoviedb.org/movie" in ids[0]:`
[95] update other_name 2022-03-06 23:51:12 +00:00			`return util.regex_first_int(ids[0], "TMDb Movie ID")`
added letterboxd cache #102 2021-03-12 19:49:23 +00:00			`raise Failed(f"Letterboxd Error: TMDb Movie ID not found in {ids[0]}")`
letterboxd fix 2021-03-11 21:53:43 +00:00			`raise Failed(f"Letterboxd Error: TMDb Movie ID not found at {letterboxd_url}")`
Add Letterboxd Support 2021-03-04 20:05:51 +00:00
variable rename 2021-05-07 19:53:54 +00:00			`def get_list_description(self, list_url, language):`
[14] update trace 2022-09-07 19:32:52 +00:00			`logger.trace(f"URL: {list_url}")`
[25] add requests module 2024-05-28 20:22:51 +00:00			`response = self.requests.get_html(list_url, language=language)`
#306 Added a Session 2021-07-14 14:47:20 +00:00			`descriptions = response.xpath("//meta[@property='og:description']/@content")`
[33] Fixes 'NoneType' object has no attribute 'headers' Error and Fixes letterboxd descriptions from not getting all the text (#2085) 2024-05-30 17:17:49 +00:00			`if len(descriptions) > 0 and len(descriptions[0]) > 0 and "About this list: " in descriptions[0]:`
			`return str(descriptions[0]).split("About this list: ")[1]`
			`return None`
variable rename 2021-05-07 19:53:54 +00:00
[46] add letterboxd filters 2022-03-31 06:23:48 +00:00			`def validate_letterboxd_lists(self, err_type, letterboxd_lists, language):`
prep for sort 2021-07-21 17:40:05 +00:00			`valid_lists = []`
[46] add letterboxd filters 2022-03-31 06:23:48 +00:00			`for letterboxd_dict in util.get_list(letterboxd_lists, split=False):`
			`if not isinstance(letterboxd_dict, dict):`
			`letterboxd_dict = {"url": letterboxd_dict}`
			`dict_methods = {dm.lower(): dm for dm in letterboxd_dict}`
			`final = {`
			`"url": util.parse(err_type, "url", letterboxd_dict, methods=dict_methods, parent="letterboxd_list").strip(),`
[106] small updates 2022-05-18 17:07:15 +00:00			`"limit": util.parse(err_type, "limit", letterboxd_dict, methods=dict_methods, datatype="int", parent="letterboxd_list", default=0) if "limit" in dict_methods else 0,`
[46] add letterboxd filters 2022-03-31 06:23:48 +00:00			`"note": util.parse(err_type, "note", letterboxd_dict, methods=dict_methods, parent="letterboxd_list") if "note" in dict_methods else None,`
			`"rating": util.parse(err_type, "rating", letterboxd_dict, methods=dict_methods, datatype="int", parent="letterboxd_list", maximum=100, range_split="-") if "rating" in dict_methods else None,`
			`"year": util.parse(err_type, "year", letterboxd_dict, methods=dict_methods, datatype="int", parent="letterboxd_list", minimum=1000, maximum=3000, range_split="-") if "year" in dict_methods else None`
			`}`
			`if not final["url"].startswith(base_url):`
			`raise Failed(f"{err_type} Error: {final['url']} must begin with: {base_url}")`
[106] small updates 2022-05-18 17:07:15 +00:00			`elif not self._parse_page(final["url"], language)[0]:`
[46] add letterboxd filters 2022-03-31 06:23:48 +00:00			`raise Failed(f"{err_type} Error: {final['url']} failed to parse")`
			`valid_lists.append(final)`
prep for sort 2021-07-21 17:40:05 +00:00			`return valid_lists`

reorg 2021-08-07 06:01:21 +00:00			`def get_tmdb_ids(self, method, data, language):`
cleanup 2021-08-01 04:35:42 +00:00			`if method == "letterboxd_list":`
			`logger.info(f"Processing Letterboxd List: {data}")`
[106] small updates 2022-05-18 17:07:15 +00:00			`items = self._parse_list(data["url"], data["limit"], language)`
cleanup 2021-08-01 04:35:42 +00:00			`total_items = len(items)`
			`if total_items > 0:`
reorg 2021-08-07 06:01:21 +00:00			`ids = []`
[46] add letterboxd filters 2022-03-31 06:23:48 +00:00			`filtered_ids = []`
cleanup 2021-08-01 04:35:42 +00:00			`for i, item in enumerate(items, 1):`
[46] add letterboxd filters 2022-03-31 06:23:48 +00:00			`letterboxd_id, slug, year, note, rating = item`
			`filtered = False`
			`if data["year"]:`
			`start_year, end_year = data["year"].split("-")`
			`if not year or int(end_year) < year or year < int(start_year):`
			`filtered = True`
			`if data["rating"]:`
			`start_rating, end_rating = data["rating"].split("-")`
			`if not rating or int(end_rating) < rating or rating < int(start_rating):`
			`filtered = True`
			`if data["note"]:`
			`if not note or data["note"] not in note:`
			`filtered = True`
			`if filtered:`
			`filtered_ids.append(slug)`
			`continue`
[64] #640 & #675 added redacted logging and --ignore-ghost 2022-02-13 16:33:57 +00:00			`logger.ghost(f"Finding TMDb ID {i}/{total_items}")`
cleanup 2021-08-01 04:35:42 +00:00			`tmdb_id = None`
			`expired = None`
[25] add requests module 2024-05-28 20:22:51 +00:00			`if self.cache:`
			`tmdb_id, expired = self.cache.query_letterboxd_map(letterboxd_id)`
cleanup 2021-08-01 04:35:42 +00:00			`if not tmdb_id or expired is not False:`
			`try:`
			`tmdb_id = self._tmdb(f"{base_url}{slug}", language)`
			`except Failed as e:`
			`logger.error(e)`
			`continue`
[25] add requests module 2024-05-28 20:22:51 +00:00			`if self.cache:`
			`self.cache.update_letterboxd_map(expired, letterboxd_id, tmdb_id)`
reorg 2021-08-07 06:01:21 +00:00			`ids.append((tmdb_id, "tmdb"))`
[64] #640 & #675 added redacted logging and --ignore-ghost 2022-02-13 16:33:57 +00:00			`logger.info(f"Processed {total_items} TMDb IDs")`
[46] add letterboxd filters 2022-03-31 06:23:48 +00:00			`if filtered_ids:`
			`logger.info(f"Filtered: {filtered_ids}")`
reorg 2021-08-07 06:01:21 +00:00			`return ids`
cleanup 2021-08-01 04:35:42 +00:00			`else:`
reorg 2021-08-07 06:01:21 +00:00			`raise Failed(f"Letterboxd Error: No List Items found in {data}")`
more caches 2021-05-09 05:38:41 +00:00			`else:`
cleanup 2021-08-01 04:35:42 +00:00			`raise Failed(f"Letterboxd Error: Method {method} not supported")`