0
0 комментариев

нужно прочесть txt file , юзаю read_table.При чтении длинного предложения , всё работает хорошо , за исключением того , что оно очень сильно урезается и на месте удалённой части появляется троеточие. это выглядит вот так :

On Wednesday, March 7, the U.S. reg…

есть ли какой-нибудь параметр в методе read_table , который сделает чтение файла корректным ?

вот код :

   import pandas as pd
   import numpy as np
 
path=r"C:\Users\neir0\Downloads\Telegram Desktop\textout.txt"
 
df=pd.read_table(path,header=None,encoding='utf-8')
 
date=[]
state=[]
 
for index , row in df.iterrows():
    x=8480
    case_1=range(0,x,3)
    case_2=range(1,x,3)
    if "date :" in str(row) :
        date.append(row)
    elif 'content :' in str(row) :
        state.append(row)
    elif 'href :' in str(row):
        continue
 
df=pd.DataFrame({'date':date,'content':state})
z=[]
for p in df['date']:
    z.append(p)
year=[]
month=[]
day=[]
for w in z:
    w=str(w).split('T')
    t=str(w[0]).replace('-',' ').replace('date : ','').split(' ')
    year.append(t[4])
    month.append(t[5])
    day.append(t[6])
 
df=pd.DataFrame({'year':year,'month':month,'day':day,'content':state})
df.to_csv(r"C:\Users\neir0\Desktop\ez\bitcoin_analyzer\data\content.csv",index=False)

хочу обратить внимание на возможный косяк — я преобразовываю строку файла ( Series) в обычный str() .Я это делаю , для проверки условия

Изменен статус публикации
Добавить комментарий