What is the Python library used by Selenium to construct the ".text" attribute of a element?

I have a web-scraping code using Selenium-python and realized I don't need to run any javascript so for efficiency purposes I'm "translating" it to urllib.requests and BeautifulSoup. I've got and issue trying to mimic the work done by the ".text" attribute of selenium when reading the tables. BeautifulSoup doesn't seem to have such simple way to read tables. When trying to search in Selenium module how the ".text" attribute is coded I figured I don't know how to look up for such information. Can anyone help me to figure this information. Where is explained how this atribute is retrieved from html?

Example_url = "http://www4.tjrj.jus.br/consultaProcessoWebV2/consultaMov.do?v=2&numProcesso=2008.001.000272-2&acessoIP=internet&tipoUsuario="

When I do try with Selenium:



I get the desired result (sample)

" As informações aqui contidas não produzem efeitos legais.\nSomente a publicação no DJERJ oficializa despachos e decisões e estabelece prazos.\n\nProcesso No 0000184-70.2008.8.19.0001\n2008.001.000272-2\n TJ/RJ - 16/11/2018 06:50:45\n ARQUIVADO EM DEFINITIVO - MAÇO Nº 1706, em 02/07/2012\n Comarca da Capital 11ª Vara Criminal\nCartório da 11ª Vara Criminal\n Endereço: Av. Erasmo Braga 115 L II sala 504 \nBairro: Centro\nCidade: Rio de Janeiro\n Ofício de Registro: 3º Ofício de Registro de Distribuição\nAssunto: Furto (Art. 155 - CP) C/C Crime Tentado, II\n Classe: Ação Penal - Procedimento Ordinário\n Autor MINISTERIO PUBLICO DO ESTADO DO RIO DE JANEIRO\n Listar alterações / exclusões de personagens\n Advogado(s): TJ000002 - DEFENSOR PÚBLICO\n Tipo do Movimento: Arquivamento\nData de arquivamento: 02/07/2012\nTipo de arquivamento: definitivo\nMaço: 1706\nMaço recebido pelo arquivo em: 09/07/2012\nLocal de arquivamento: Arquivo Geral - Rio de Janeiro\n Tipo do Movimento: Revogação da Suspensão do Processo (Art. 89 da Lei 9099)\nData do movimento: 01/07/2012\n Tipo do Movimento: Ato Ordinatório Praticado\nData: 06/02/2012\nDescrição: Ag. expedição de ofício de baixa. Ofício eletrônico nº 206539271 ao 3º ORD em 14/02/2012., devidamente cumprido em 18/06/2012. Processo para arquivar.\n Tipo do Movimento: Ato Ordinatório Praticado\nData: 17/01/2012\nDescrição: devolvido da digitação\n Tipo do Movimento: Digitação de Documentos\nData da digitação: 17/01/2012\n Tipo do Movimento: Ato Ordinatório Praticado\nData: 06/01/2012\nDescrição: Para fazer comunicações de praxe.\n Tipo do Movimento: Ato Ordinatório Praticado\nData: 06/01/2012\nDescrição: Certifico que a r. sentença de fls. 111/112, transitou em julgado para as partes em 04/11/2011."...(it continues..)

Assuming javascript doesn't need to run. I will test during hours you indicate.

I would probably try pandas first to retrieve table

import pandas as pd
result = pd.read_html("http://www4.tjrj.jus.br/consultaProcessoWebV2/consultaMov.do?v=2&numProcesso=2008.001.000272-2&acessoIP=internet&tipoUsuario=")
print(result[0].dropna()) # <== or choose appropriate index

Otherwise, CSS selector to target the table using requests.

import requests
from bs4 import BeautifulSoup
url = 'http://www4.tjrj.jus.br/consultaProcessoWebV2/consultaMov.do?v=2&numProcesso=2008.001.000272-2&acessoIP=internet&tipoUsuario='
res  = requests.get(url,headers={'User-Agent': 'Mozilla/5.0'})
soup = BeautifulSoup(res.content, 'lxml')
print(soup.select_one('#content table').text)

in my place it ask Captcha, after I solve it in browser then I run document.cookie in Console to get the cookie.

import requests, re
from bs4 import BeautifulSoup

# simple table formatter
def cleanTable(table):
    table = '\n'.join([x.strip() for x in table.split('\n')])
    table = re.sub(r'(.)[\r\n](.)', r'\1 \2', table)
    table = re.sub(r'[\r\n]{2,}', '\n', table)
    return table.strip()

heads = {'Cookie' : 'JSESSIONID=0afafa3330d816c755a5df3c478cb6388d1b52b9dc5e.e34NbhiLbN0NbO0Lc30PaNaQbN0Me0;'}
Example_url = 'http://www4.tjrj.jus.br/consultaProcessoWebV2/consultaMov.do?v=2&numProcesso=2008.001.000272-2&acessoIP=internet&tipoUsuario='

html = requests.get(Example_url, headers=heads)
soup = BeautifulSoup(html.text, 'html.parser')
table = soup.find('table').text
# Python 2.7
# table = soup.find('table').text.encode('utf-8')


  • It is likely .text is not an attribute but rather is the text content of an element you mean. Can you share your code, url/html and expected result? There are other methods for reading tables easily.
  • For making test I would suggest to do it during 20:00 - 11:00 UTC time. Since the page is blocked for robots during day working hours in Brazil.